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Julia Nantke and Frederik Schlupkothen 
Introduction 


Annotations in Scholarly Editions and Research 


The practice of annotating is a cultural technique used since the Middle Ages in 
various religious, scholarly and everyday contexts. In the twentieth century it has 
also become a central principle used in information technological systems. Due to 
its historical impact, the term 'annotation' unites different concepts that vary in 
coverage, application and direction but which also have instructive parallels. In 
the Humanities, the term traditionally refers to an additional contextualization 
and explanation of a text added by the author of the text, a different scribe or an 
editor. Therefore, annotations are equally objects and tools of research, since they 
build bridges between the perception and the production of knowledge (see Boot 
2009, 204). Annotations establish a ‘dialogical structure’ that explicitly links a 
text passage or an image to its translation, its explanation and/or another artefact, 
and thereby gives information about the use of the annotated object in a certain 
time, culture or situation (see Moulin 2010; Meister forthcoming). Hence, anno- 
tations always represent a specific perspective on the object, one that is shaped 
not only by the general circumstances of their origin but also by a designated 
conceptual purpose and a certain scholarly and/or personal point of view: *The 
core of explanatory annotation can be found in hermeneutics" (Zirker and Bauer 
2017, 147). 'Explanatory' here can be understood in a twofold way: annotations 
can be intended to explain something to another reader, or they can be traces of 
perception processes, i.e. the recipient explains something to her- or himself by 
annotating. This also means that every annotation, no matter whether it is made 
for public or private use and whether it includes words and sentences, special 
characters or takes the form of just underlining and other markings, takes part in 
modelling the object for its further recipients — whether this is intended by the 
annotator or not. 

From the perspective of Information Technology, the term 'annotation' can 
already refer to the use of processable markup on data sets. Furthermore, the 
notion can refer to structured keyword indexing or metadata descriptions, e.g. by 
means of formal languages and standardized technologies of the Semantic Web 
(see Shadbolt et al. 2006). Thus, annotations in IT contain additional information 
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as well, yet are not necessarily intended for a human reader but for an automated 
processing system. In this context, the explanatory function of annotations aims at 
making a given text semantically accessible to a computer program in the first place. 
As these annotations usually follow a specific world conception, e.g. described by 
means of controlled vocabularies or ontology languages, their reasoning systems 
are often caught within a particular ‘reality’. 

The Web Annotation Working Group of the World Wide Web Consortium (W3C) 
has made the attempt to consolidate the classic concept of human-targeted an- 
notations with a technical model that adds a new layer to the web in order to 
interlink web resources with human-readable annotations by means of Semantic 
Web technologies (Ciccarese et al. 2017a, 2017b). These web annotations are based 
on general linking standards that allow the creation of references to resources of 
various media types (text, images, videos, etc.) or their respective fragments (e.g. 
time- or space-based). 

Both the Humanities and Technical Sciences use annotations to provide ma- 
terial with some sort of organizing framework to guide its further processing. It 
is precisely this conceptual overlap between the Humanities and the Technical 
Sciences that unfolds its heuristic potential in the context of the Digital Humanities. 
At the same time the multiplication of the conceptual range of annotations and 
the divergences in knowledge-building practices in the Humanities and in the 
Technical Sciences harbour a heightened potential for confusion. The practice of 
annotating is becoming one of the central epistemological techniques, especially 
in the field of the Digital Humanities (see Kindley 2015), but at the same time the 
term 'annotation' *is not clearly defined, and its methodological foundations have 
not really been well researched" (Zirker and Bauer 2017, 145; see also Lordick et al. 
2016, 188; Walkowski 2016, 6n.). The heuristic potential of annotations and the 
lack of their scholarly foundation both result from an interrelation of theoretical 
perspectives and scholarly practices in the interdisciplinary ‘contact zone’ of the 
Humanities and Technical Sciences. The progressively established use of digital 
methods in scholarly editions and research in the Humanities is changing anno- 
tation practices (see Landow 2006, 102-107; McCarty 2002). This is the case on 
the one hand because the annotation guidelines of the Text Encoding Initiative 
(TEI; Burnard and Bauman 2015) are now to be regarded as the “de facto stan- 
dard" (Sahle 2013, 341) for the production of digital and printed scholarly editions 
and machine-readable digital text corpora in the Humanities. On the other hand, 
digital publications are integrated via metadata standards such as the Integrated 
Authority File of the German National Library (GND), the Guidelines for the De- 
scription of Personal Paper and Manuscript Collections (RNA) or the Functional 
Requirements for Bibliographical Records (FRBR) into extensive, centrally con- 
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figured networks by using annotations.! The epistemic impact of this procedure 
can hardly be overestimated (see Nantke 2019). In all these cases, annotations 
no longer serve merely as supplementary commentaries, but have a significant 
structuring effect on the appearance, perception and use of texts. Formalized on- 
tologies decide how texts are sorted, how they can be searched and which parts of 
them are marked as relevant. Markup languages form an additional level of the 
‘actual’ text, but often remain largely invisible to the human recipients. Because of 
this omnipresence of annotations in digital environments, we need to reflect on 
their theoretical impact and relation to existing text theories that stem from the 
sphere of analogue publishing. This holds true especially because of the partial 
invisibility of their structuring effects. 

Besides their use in editorial contexts, there are several projects in the Digital 
Humanities that - like the TEI Guidelines — aim at the development of overarching 
concepts, guidelines and tools for semantic annotation to support the analysis 
and interpretation of corpora used in and for the Humanities.? The heuristic scope 
of these projects often reaches far beyond mere representation of or commenting 
on texts. For example, narratological or genre-specific features are translated into 
machine-readable tagsets or ontologies that are used to explicitly add epistemolog- 
ical and interpretive perspectives to the texts via annotation (see Gius and Jacke 
2015; Meister 2012; Nantke 2017, 93-96). These projects in particular show how 
annotation practices change as a result of the use of digital tools and environments. 
They illustrate that transferring the long-standing practices of the Humanities 
into digital environments must be accompanied by reflection on the epistemic 
implications of these practices and their transmission (see McCarty 2020 in this 
volume). 

Annotations in digital environments are potentially entered automatically or 
collaboratively (see Jannidis 2010, 550; Landow 2006, 103-107). This multiplica- 
tion of annotation scenarios also manifests itself on a conceptual level: complex 
annotation schemes for manually annotating selected materials are joined by flat 


1 See e.g. http://www.dnb.de/DE/Standardisierung/GND/gnd_node.html; http://kalliope-ver 
bund.info/ Resources/Persistent/5bf5cd96ea4448bfec20caf2e3d3063344d76b58/rna-berlin-wien- 
mastercopy-08-02-2010.pdf; https://www.ifla.org/files/assets/cataloguing/frbr/frbr.pdf (27.01. 
2020). 

2 See the list of "Annotation Tools" compiled by DARIAH-DE at https://docs.google.com/ 
spreadsheets/d/1pScqOukgq3gLkL51fA_VUw9ubs_IO8NwNJde-g3LEis/edit#gid=0 (27.01.2020), 
the “Bibliography of Tools" in Siemens et al. (2017, 171-173) and the following projects: heureCLÉA 
- Collaborative Literature Exploration & Annotation: http://heureclea.de (27.01.2020); POSTDATA 
- Poetry Standardization and Linked Open Data: http://postdata.linhd.es (27.01.2020); Shared 
Tasks in the Digital Humanities: https://sharedtasksinthedh.github.io (27.01.2020). For the last 
project see also Reiter et al. (2020) in this volume. 
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and highly formalized tagsets for fully automated indexing of mass data (see Rehm 
2020 in this volume). This, again, influences the theoretical level, since annotations 
are no longer defined as the research achievements of a few specialized scholars, 
as used to be the case e.g. in analogue scholarly editions, but can also be the result 
of algorithmic computing or swarm intelligence (for the latter see Meister 2012).? 
Additionally, in contrast to the aforementioned invisibility in digital envi- 
ronments, annotations can gain a new level of visibility here, too. In the past, 
annotations for e.g. highlighting, classifying or commenting that were made dur- 
ing the research process remained invisible to the public in most cases. In digital 
environments they can be made visible again, e.g. through a set of partially com- 
bined features such as colours, underlining, clickable links or popup windows. 
Public visibility contributes to an increased relevance of these traces of schol- 
arly practice by approximating them to analogue structures such as marginalia 
in ancient books or apparatus critici in printed scholarly editions. At the same 
time, the visualizations benefit from digitization. Because of the possibilities for 
switching between numerous levels of annotation in the visualizations, digital 
infrastructures enable arranging annotations for different purposes and/or from 
different persons much more transparently than what is possible in analogue envi- 
ronments with more confined storage space (see Horstmann forthcoming). Here, 
again, the changed practice converges with a changed theoretical mindset, since 
in literally putting a focus on annotations by the scholarly community or for the 
purposes of dealing with the texts of others, scholarly reading and writing become 
visible and describable in their interrelated work stages. This applies to natively 
digital research processes and also to formerly analogue working drafts that are 
made visible e.g. in digital scholarly editions. In this context, annotations can help 
to examine and understand the parallels between analogue and digital research 
practices. Nevertheless, annotating as part of the heuristic acquisition of a text 
becomes more ‘strategic’ in digital space, because no matter how *undogmatic" 
(see https://catma.de [27.01.2020] and Horstmann 2020 in this volume), it requires 
more prearrangement and formal precision than sketching with a pen on paper.^ 
The reorientation in the course of digitization in the Humanities and the reflec- 
tion on its impact on the notion of annotation also draw attention to the already 
existing diversity of perspectives and objectives associated with the concept of 
annotation within the Humanities and the Technical Sciences respectively. Thus, 
even from a ‘classical’ Humanities perspective, the concept of annotation is not 


3 However, as Moulin (2010, 21) describes, medieval annotations were carried out in ‘teamwork’ 
by several different scribes as well. 

4 Horstmann (forthcoming) also points out various desiderata of digital visualizations in compar- 
ison with analogue environments and depicts attempts to solve them. 
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clearly defined in its scope and boundaries. The forms and functions of explana- 
tory editorial annotations have been the subject of scholarly debates ever since 
the 1970s (see e.g. Assmann and Gladigow 1995; Frühwald et al. 1975; Martens 
1993a). On the one hand, the discussions on the patronising effect of annotated 
comments that were part of these debates lose relevance when annotation becomes 
a collaborative practice. On the other hand, the challenge of making “assignments 
of meaning from a multitude of possibilities and alternatives"5 gains even more 
importance in digital environments where the processing system relies on unambi- 
guity and uniqueness. Additionally, the question of whether a common ground 
of understanding can be established through local annotations (Martens 1993b, 
44) meets with the conjuncture that *annotations of parts of the text presuppose 
its overall complete understanding which they are, in turn, supposed to provide" 
(Zirker and Bauer 2017, 147). Both observations point to the general problem of 
inevitable interpretive choices and semantic losses in the process of making mean- 
ing explicit through annotation, which is also relevant e.g. for the annotation of 
manuscript features described by the TEI. 

The established document and annotation description languages derive from 
technical representations that were designed for a very specific purpose: preparing 
documents in the publishing industry. These efforts led to the Standard General- 
ized Markup Language (SGML; ISO 8879:1986) and eventually to the Extensible 
Markup Language (XML; Bray et al. 1998). On these bases the TEI was founded 
as a consortium to establish a digital format for the exchange of texts from Cul- 
tural Studies and the Humanities. This endeavour, as with other application areas 
of XML, brought about the inception of different paradigms (document - data - 
ontology) that exceed the description of the form of a document, but follow more 
formal representations of the given content. This “grammatization” of document 
representations (Pédauque 2006, 90-97) can be traced in the development of XML- 
based description languages for annotations as well. Accordingly, the example 
of the Annotated XML Specification provides a reference implementation for the 
publication of natural language annotations (Bray 1998), whereupon the Annotea 
project (Kahan et al. 2002) and finally Web Annotations (Ciccarese et al. 2017b) 
provide more and more formal descriptions not only ofthe annotations themselves, 
but also of their embedding and context of use. 

These examples illustrate the benefits of envisioning analogue and digital 
enrichment practices in a historical perspective. Critical reflection on their con- 
tinuities and differences can help identify requirements for further systematic 
development in the course of digital practices (see Meister forthcoming) and lead 


5 Our translation of *Sinnzuweisungen aus einer Fülle von Móglichkeiten und Alternativen" 
(Martens 1993b, 38). 
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to an approximation of what can be seen as the core of the concept of annotation. 
Furthermore, comparing different current practices of annotation gives rise to 
questions concerning the respective range of the annotation concept as well as 
potential reorientations in the light of recent changes in scholarly practices. 

These considerations stood behind an interdisciplinary conference that took 
place at the University of Wuppertal in February 2019. Our goal was to reflect on var- 
ious annotation practices and their associated theoretical perspectives and to relate 
these practices to each other. Participants from seven countries as well as from sev- 
eral different disciplines in the Humanities and Technical Sciences took part in the 
conference. The outcomes of their presentations and the very fruitful debates are 
presented in this volume. The articles range from historical, epistemological and 
quantitative investigations of annotation practices (Bamert, Freedman, Hinzmann, 
Lange, McCarty) to presentations of methodologies and tools for systematically 
annotating digital corpora (Drummond/Wildfeuer, Franken/Koch/Zinsmeister, 
Horstmann, Reiter/Willand/Gius, Sciuto), from attempts to capture cultural expres- 
sions of various centuries with machine-readable tagsets (Fanta, Lang, Lück) to 
considerations about the potential of formalizing annotation structures according 
to standards of the World Wide Web (Koolen/Boot, Rehm, Schlupkothen/Schmidt). 
Depending on the conceptual viewpoint, the scope of what is described as 'an- 
notation' varies in the contributions, ranging from concrete verbal formations 
such as footnotes (Freedman), explanatory annotations in scholarly editions 
(Schlupkothen/Schmidt, Sciuto) or XML tags (Koolen/Boot, Fanta) to wider 
conceptualizations that also include non-verbal forms of expression (Bamert, 
Drummond/Wildfeuer) or notes that are made on separate material (McCarty). 
These differences again show the multifaceted nature of the phenomenon 'annota- 
tion'. But at the same time these differences point to layout/materiality', *mode of 
expression’ and ‘position in relation to the primary object’ as central aspects that 
can help to structure occurrences of annotation. 

Coming from a praxeological perspective, the volume aims at critically re- 
flecting on the concept of annotation as well as categorizing commonalities and 
divergences between the different notions of annotation. The conference made very 
clear, though, that in the case of annotation practices, systematization cannot be 
achieved by clear distinctions between analogue and digital or by allocating each 
example of annotation to one specific category. For example, the differentiation 


6 Likewise, investigations of paratextual elements such as footnotes and marginalia in various 
media and material formats are an increasingly recognized field of research in terms of its relevance 
for the history of scholarship (see e.g. Freedman 2016, 14-20; Grafton 1997; Metz and Zubarik 
2008; and the project Glossenedition/Editing glosses [LMUexcellent] https://www.mueze.uni- 
muenchen.de/editing glosses/index.html [27.01.2020]). 
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between ‘annotation as a tool’ and ‘methodological aspects of annotation’, which 
we had suggested for the conference sections, is instructive as a heuristic means, 
but in fact those two aspects are very much interwoven in practice, since the con- 
struction of annotation tools is always shaped by methodological assumptions and 
requirements and, conversely, the use of a certain tool determines the method(s) 
of annotating (see Nantke forthcoming). Additionally, the talks and discussions 
revealed many interconnections between topics that, at first glance, seemed quite 
far apart. This was the reason why we considered an alternative way of structuring 
this volume. We assumed that instead of solely providing a linear table of con- 
tents, the proceedings would better meet the goal of the conference by dynamically 
connecting the articles by annotating them using keywords. The subject of our 
conference has thus had a direct impact on the structure of this publication as 
well. 

Hence, the structure of this volume now follows two classification schemes: 
one formal and one substantial. The articles firstly appear in the alphabetical 
order of the authors’ names. Secondly, we aim at systematizing aspects of the 
concept of annotation and contextualizing the different approaches to annotating 
by establishing a set of potential keywords. Table 1 on the following page presents 
an overview of the central aspects of annotation as they are outlined by the articles 
in this volume. 

The assignment of keywords now makes it possible e.g. to differentiate be- 
tween articles that address annotation as a tool (Koolen/Boot), methodological 
aspects of annotation (Hinzmann, Lang) or both (Horstmann, Sciuto), and there- 
fore to provide a more nuanced approach to the interrelations between these two 
perspectives. 

The concept of this outline was developed by the participants during the 
conference. It led to a collaboratively developed concrete ‘tagset’, according to 
which we finally arranged the articles in the four sections Conceptions, Practices, 
Entities and Areas of Research as shown in Tables 2-5 on pages 13-14. 

We arrived at this final result by compiling a list of possible keywords based 
on the keywords collected during the closing discussion and the conference sec- 
tion titles (Form, Levels of Annotation, Annotation as a Tool, Methodology, On- 
tologies). Additionally, we adopted and included further existing taxonomies 
in our pool of keywords: in particular the W3C's descriptions of user intent for 
the creation of annotations, the Taxonomy of Digital Research Activities in the 
Humanities (TaDiRAH) and the Computing Classification System of the Associ- 
ation for Computing Machinery (ACM)." We recommended that the participants 


7 https://www.w3.org/TR/annotation-vocab/; http://tadirah.dariah.eu/vocab/index.php; 
https://dl.acm.org/ccs/ (27.01.2020). 


8 ——- Julia Nantke and Frederik Schlupkothen 


Tab. 1: Chapter classification 


Chapter 


Bamert 
Drummond/Wildfeuer 


Fanta 


Franken/Koch/Zinsmeister 


Freedman 
Hinzmann 


Horstmann 


Koolen/Boot 


Lang 


Lange 
Lück 
McCarty 


Rehm 


Reiter/Willand/Gius 
Schlupkothen/Schmidt 


Sciuto 


Keywords? 


Practice Theory, Role of Interpretation, Commenting, Highlighting, 
Form, Cultural Anthropology, Epistemology, Literature 
Annotation Template, Levels of Annotation, Role of Interpretation, 
Media Types, Segmentation, Multimodality 

Practice Theory, Process of Writing, Modelling, Digital Edition, 
Markup, Literature, Text Genesis 

Levels of Annotation, Role of Interpretation, Classifying, Tagging, 
Segmentation, Computational Linguistics, Cultural Anthropology, 
Epistemology, Methodology 

Practice Theory, Footnotes, Form, Academic Disciplines, History 
Levels of Annotation, Role of Interpretation, Vagueness, Modelling, 
Tagging, Epistemology, Literature, Methodology 

Levels of Annotation, Role of Interpretation, Vagueness, 
Commenting, Describing, Highlighting, Moderating, Questioning, 
Tagging, Ontologies, Tool, Literature, Methodology 
Collaboration, Modelling, Digital Edition, Markup, Media Types, 
Ontologies, Semantic Web, Tool, Digital Humanities 

Automation, Disambiguation, Evaluation, Role of Interpretation, 
Classifying, Linking, Tagging, Ontologies, Digital Humanities, 
History of Science, Methodology 

Collaboration, Evaluation, Classifying, Commenting, Form, Tool, 
Digital Humanities 

Automation, Modelling, Form, Segmentation, Literature, 
Philosophy 

Practice Theory, Commenting, Note-Making, Cognitive Ecology, 
Cognitive Sciences, Epistemology 

Evaluation, Levels of Annotation, Markup, Semantic Web, Artificial 
Intelligence, Computational Linguistics, Digital Humanities, Digital 
Publishing 

Annotation Template, Evaluation, Literature, Methodology, 
Narratology 

Commenting, Describing, Linking, Modelling, Digital Edition, 
Markup, Digital Publishing 

Levels of Annotation, Digital Edition, Tool, Literature, Methodology, 
Philosophy 


8 The keywords are listed in the order in which they appear in Tables 2-5 on pages 13-14; this 
order is also used within the respective chapters. 
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Practice Theory „u 
Digital Humanities Form 


Process of Writing Moderating 


vasueress Commenting Evaluation 


Digital Publishing 


Text Genesis Disambiguation Philosophy > Footnotes Cognitive Ecology 
Levels of Annotation Markup 
Cultural Anthropology Academic Disciplines Cognitive Sciences Computational Linguistics 


Tagging Literature Epistemology 


Multimodality Artificial Intelligence 


Collaboration 


Role of Interpretation mos 


History Note-Making 


Classifying M eth od o logy Media Types 


Semantic Web minium Highlighting 


Segmentation Modelling Ontologies 


Annotation Template xia Linking Automation 


N Digital Edition 


Fig. 1: Word cloud visualization of the overall frequencies of the assigned keywords 


refer to these taxonomies, because they all — narrowly or broadly - aim at struc- 
turing and formalizing aspects that are also related to the concept and practice of 
annotation and at the same time represent different disciplinary perspectives. In 
integrating these existing taxonomies into our ‘tagset’ on annotation, we intended 
to make use of the validation processes by means of which they were constructed, 
and to place our attempt at systematization within a broader picture of research 
and modelling activities. 

Based on these suggestions, in the first round all participants assigned their 
contributions to as many keywords as they found relevant. The result already 
showed a lot of overlaps, but also interesting unique features. In the following 
editorial process we eliminated synonyms as well as false friends, and developed 
the final classification in constant exchange with all the authors. 

Figure 1 shows that this final set of keywords has significant peaks at the key- 
words Role of Interpretation and Levels of Annotation. These conceptual aspects 
link a number of articles on very different facets of annotation and belong to the 
overall most frequently assigned keywords of the volume, as the word cloud shows. 
They both point to the complexity of the annotation practices described in this vol- 
ume: different levels of annotation are needed to adequately capture the structures 
of cultural artefacts by means of annotation. As discussed above, the digitization of 
practices in the Humanities entails an increased need for formalization. Therefore, 
working in digital environments in particular fosters a systematic differentiation of 
annotation levels, since reflection on the concrete goals of the annotation process 
is a necessary part of e.g. choosing a specific tool or the basis for designing one. 
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Reiter/Willand/Gius 
Schlupkothen/Schmidt 
Drummond/Wildfeuer 
Franken/Koch/Zinsmeister 


Koolen/Boot 
Freedman 
McCarty 
Horstmann 


Lang 


Sciuto 
Fanta 
Koolen/Boot 
Lange 
Rehm 
Schlupkothen/Schmidt 
Bamert | | 
Freedman 
McCarty 


Drummond/Wildfeuer 


Franken/Koch/Zinsmeister 


CAM 
d H-— 
^ E os 


Fig. 2: Adjacency matrix and visualization of article groups on the basis of keyword co-occurences 


Another outcome of this heightened need for formal precision - it can be presumed 
by the frequent use of this keyword - is the foregrounding of the important role that 
interpretation plays in processes of transforming Humanities research questions 
and practices into more stable, machine-readable formats.? 

The correlation of a certain perspective on the process of annotation with 
working in a digital environment is also indicated by the matrix shown in Figure 2. 
This adjacency matrix serves to visualize keyword co-occurrences and groups 
them according to the Louvain method for community detection (see Blondel et al. 
2008). Each coloured cell represents the weighted keyword co-occurrences for two 
articles that appear in the volume, while darker cells indicate articles that share a 
relatively high number of keywords and the four colour groups (purple, red, green, 
orange) highlight the detected communities. The large orange cluster encompasses 
articles that all explicitly deal with theoretical and methodological implications 
of annotating in digital environments, while e.g. the articles that are grouped in 


9 Atthesame time considerations concerning the role of interpretation, as already mentioned 
above, have quite a tradition in debates on annotations in the Humanities. 
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the red cluster are more concerned with the concrete procedures of systematically 
modelling different media structures by using markup. 

A significant focus of the articles in the volume lies on Practices connected with 
the concept of annotation. The set of Practices represents the most specific category 
in our systematization and, as the word cloud shows, the keywords Commenting, 
Modelling and Tagging are some of the most frequently assigned terms. 

Although annotating itself is a scholarly practice and as such is part of a set of 
*scholarly primitives" (Unsworth 2000), there are at the same time several other 
practices related to the concept of annotation. The accumulation of the Practices 
subset places the concept of annotation in a network of interrelated practices; 
this may help to reassert and substantiate its status as a scholarly primitive. E.g. 
commenting and tagging are research practices that are directly associated with 
the concept of annotation. Additionally, the edge bundling visualization of the 
relations between the articles in Figure 3 on the next page shows e.g. that the 
keyword Commenting relates articles on epistemological questions and historical 
perspectives to more technically oriented contributions. Modelling, however, is a 
practice that is more explicitly associated with digital approaches, especially in 
the context of markup. 

In addition to the Conceptions and Practices of annotation, the Entities subset 
expresses the relation between annotations and the objects they are directed at or 
the formats they are displayed in. This category gives an overview of the wide range 
of topics related to the concept of annotation that are addressed in this volume. It 
encompasses broad categories such as Tool that connect several articles on different 
topics. At the same time e.g. the entity Digital Edition qualifies contributions that 
deal with the same display format of annotations, and Semantic Web or Footnotes 
refer to specific formats in the context of annotation that are only addressed in 
certain articles. 

The category Areas of Research is intentionally rather broad and ‘soft’, since it 
was our goal to facilitate reader orientation in our interdisciplinary publication in 
the first place. Therefore, we left it to the participants how best to position their 
contributions. As a result, the category encompasses disciplines such as Linguistics 
or Philosophy as well as more specific attributions like Multimodality or Cognitive 
Ecology. Nevertheless, the category gives an impression of the main perspectives 
of the volume. The keywords show a significant accumulation of articles from 
the fields of Literature and Digital Humanities, as well as on Methodology and 
Epistemology. Additionally, as our previous remarks indicate, the tables and vi- 
sualizations provide a more distinct impression of the substantive scope of the 
articles. While the adjacency matrix gives a broader impression of certain groups 
of related articles, the edge bundling visualization can assist in e.g. discovering 
relations between articles by means of the assigned keywords in detail. 
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Fig. 3: Edge bundling visualization of relations between the articles as indicated by the keywords 


These considerations make it clear that the keywords and their further categoriza- 
tion are to be understood as a first attempt to systematize notions of the concept of 
annotation in an interdisciplinary perspective on the basis of concrete research 

projects. We do not make a claim to completeness here, but we do hope to have 
made a valuable contribution to differentiating formats and functions, and system- 
atizing the interdisciplinary field of annotation practices, by combining first-hand 
research reports with theoretical reflection from various disciplines in a flexible 
indexing structure that can be used as a basis for further research on the concept 
of annotation. 
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Tab. 2: Chapter classification according to the ‘Conceptions’ tagset 


Conceptions Qty Chapters 

Annotation Template 2 Drummond/Wildfeuer, Reiter/Willand/Gius 

Automation 2 Lang, Lück 

Collaboration 2 Koolen/Boot, Lange 

Disambiguation 1 Lang 

Evaluation 4 Lang, Lange, Rehm, Reiter/Willand/Gius 

Levels of Annotation 6 Drummond/Wildfeuer, Franken/Koch/Zinsmeister, Hinzmann, 


Horstmann, Rehm, Sciuto 


Practice Theory 4 Bamert, Fanta, Freedman, McCarty 

Process of Writing 1 Fanta 

Role of Interpretation 6 Bamert, Drummond/Wildfeuer, Franken/Koch/Zinsmeister, 
Hinzmann, Horstmann, Lang 

Vagueness 2 Hinzmann, Horstmann 


Tab. 3: Chapter classification according to the ‘Practices’ tagset 


Practices Qty Chapters 

Classifying 3 Franken/Koch/Zinsmeister, Lang, Lange 

Commenting 5 Bamert, Horstmann, Lange, McCarty, Schlupkothen/ Schmidt 
Describing 2 Horstmann, Schlupkothen/Schmidt 

Highlighting 2 Bamert, Horstmann 

Linking 2 Lang, Schlupkothen/ Schmidt 

Modelling 5 Fanta, Hinzmann, Koolen/Boot, Liick, Schlupkothen/Schmidt 
Moderating 1 Horstmann 

Note-Making 1 McCarty 

Questioning 1 Horstmann 

Tagging 4 Franken/Koch/Zinsmeister, Hinzmann, Horstmann, Lang 


Tab. 4: Chapter classification according to the ‘Entities’ tagset 


Entities Qty Chapters 

Digital Edition 4 Fanta, Koolen/Boot, Schlupkothen/Schmidt, Sciuto 
Footnotes 1 Freedman 

Form 4 Bamert, Freedman, Lange, Lück 

Markup 4 Fanta, Koolen/Boot, Rehm, Schlupkothen/Schmidt 
Media Types 2 Drummond/Wildfeuer, Koolen/Boot 

Ontologies 3 Horstmann, Koolen/Boot, Lang 

Segmentation 3 Drummond/Wildfeuer, Franken/Koch/Zinsmeister, Lück 
Semantic Web 2 Koolen /Boot, Rehm 

Tool 4 Horstmann, Koolen/Boot, Lange, Sciuto 
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Tab. 5: Chapter classification according to the 'Areas of Research' tagset 


Areas of Research Qty Chapters 


Freedman 
Rehm 
McCarty 
McCarty 


Academic Disciplines 1 

Artificial Intelligence 1 

Cognitive Ecology 1 

Cognitive Sciences 1 

Computational Linguistics 2 Franken/Koch/Zinsmeister, Rehm 

Cultural Anthropology 2 Bamert, Franken/Koch/Zinsmeister 

Digital Humanities 4 Koolen/Boot, Lang, Lange, Rehm 

Digital Publishing 2 Rehm, Schlupkothen/Schmidt 

Epistemology 4 Bamert, Franken/Koch/Zinsmeister, Hinzmann, McCarty 
1 
1 
7 


History Freedman 

History of Science Lang 

Literature Bamert, Fanta, Hinzmann, Horstmann, Lück, Reiter/Willand/ 
Gius, Sciuto 

Methodology 6 Franken/Koch/Zinsmeister, Hinzmann, Horstmann, Lang, 
Reiter/Willand/Gius, Sciuto 

Multimodality 1 Drummond/Wildfeuer 

Narratology 1 Reiter/Willand/Gius 

Philosophy 2 Lück, Sciuto 

Text Genesis 1 Fanta 
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Manuel Bamert 
„Aha!“ — Annotieren mit Stiften als 
epistemische Praxis 


Abstract: Reading notes in books and other printed matter are of increasing interest 
in Philology and Cultural History. However, we still lack an understanding of 
their epistemic foundations. With reference to Thomas Mann’s private library, I 
suggest viewing the act of annotating with pens itself as an epistemic practice. 
For this, I introduce the term ‘pen traces’ for all phenomena left behind by pens, 
and distinguish between four different forms of knowledge that influence their 
emergence: the knowledge of readers, the knowledge of authors, textual knowledge 
and contextual knowledge. By shedding light on pen traces as traces of an epistemic 
practice, finally, I point out the need for a practice theory of annotation. 


Keywords: Practice Theory, Role of Interpretation, Commenting, Highlighting, 
Form, Cultural Anthropology, Epistemology, Literature 


1 Einleitung 


Als Thomas Mann 1938 an seinem Roman Lotte in Weimar arbeitete, war sein 
Schreibprozess, wie für ihn üblich, von umfangreichen Lektüren begleitet. So las 
er zu dieser Zeit beispielsweise das im gleichen Jahr neu erschienene Buch des 
Orientalisten Hans Heinrich Schaeder mit dem Titel Goethes Erlebnis des Ostens. 
Das Buch, das in der Nachlassbibliothek im Thomas-Mann-Archiv der ETH Zürich 
erhalten ist, hat Mann indes nicht nur gelesen - er hat es, wie er es an anderer 
Stelle nennt, „mit dem Bleistift“ gelesen. Will heißen: Er hat darin zahlreiche An- 
und Unterstreichungen, Ausrufezeichen und Marginalien hinterlassen. An einer 
Stelle etwa setzt Mann ein „Aha!“ (siehe Abbildung 1 auf Seite 22) an den Rand des 
Textes und legt damit nahe, dass er hier eine Erkenntnis gewonnen hat.? 


1 Wiederholt dokumentiert Mann in seinen Tagebüchern Lektüren auf diese Weise, so zum Beispiel 
am 18. Mai 1919, am 31. Mai 1921 (siehe Mann 1979, 240, 524) und am 24. Februar 1946 (siehe Mann 
1986, 310). 

2 Die entsprechende Marginalie findet sich in Schaeder (1938, 30). Alle Abbildungen in die- 
sem Beitrag entstammen der digitalen Datenbank zu Manns Nachlassbibliothek, der Abdruck 
erfolgt mit freundlicher Genehmigung des Thomas-Mann-Archivs der ETH Zürich. Siehe zu Abbil- 
dung 1 Datenbank Thomas Mann Nachlassbibliothek, Thomas Mann 552, Bild 47 (abgerufen am 
14.10.2019). 
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Rund um diese Phánomene, also um all die mit Stiften in Büchern und anderen 
Schriften hinterlassenen Lesespuren, hat sich inzwischen eine eigene Disziplin in 
einem „kulturhistorisch-philologischen Spannungsfeld“ gebildet (Moulin 2010, 
20). Die Lesespurenforschung, die ihre wissenschaftshistorischen Wurzeln in der 
Untersuchung mittelalterlicher Glossen hat (Moulin 2010, 20), dringt in jüngster 
Zeit vermehrt auch in den digitalen Raum vor, wie etwa die Erschließungs- und 
Digitalisierungsprojekte zu Thomas Manns (Thomas-Mann-Archiv der ETH Zürich 
2019), Herman Melvilles (Olsen-Smith et al. 2008), Theodor Fontanes (Theodor- 
Fontane-Archiv Potsdam und UCLAB an der Fachhochschule Potsdam 2019) oder 
Jacques Derridas (Center for Digital Humanities at Princeton 2018) Lesespuren 
zeigen. 

Theoretisch unterbeleuchtet sind auf diesem Feld derweil noch die epistemi- 
schen Grundlagen solcher Lesespuren. Welcher Wissensgehalt kommt mit Stiften 
vorgenommenen Annotationen wie dem randstandigen ,,Aha!“ zu? Dieser Fra- 
ge móchte ich im Folgenden anhand von einigen Beispielen aus Thomas Manns 
Nachlassbibliothek nachgehen. Dazu werde ich zunáchst den Begriff der Anno- 
tation im Kontext der Lesespurenforschung situieren. Danach nehme ich eine 
epistemologische Perspektive ein und zeige in Ansátzen auf, wie man die vorge- 
brachten Phánomene als Spuren epistemischer Praktiken konzeptualisieren kann. 
Zuletzt werde ich unter dem Stichwort Praxeologie darauf eingehen, dass eine 
praxistheoretische Analyse des Annotierens ein größeres Forschungsdesiderat ist. 


2 Terminologie 


Anders als in der Glossenforschung, die sich um eine einigermaßen etablierte 
Terminologie bemüht hat (vgl. dazu zum Beispiel Bergmann und Stricker 2009), ist 
die Lage in der Erschließung und Erforschung von neuzeitlichen Lesespuren typo- 
logisch und terminologisch ungeklart. In der Einleitung zum in der deutschspra- 
chigen Lesespurenforschung bislang umfangreichsten Sammelband mit dem Titel 
Lesespuren — Spurenlesen verwendet Marcel Atze etwa alleine für durch Schreib- 
werkzeuge entstandene Lesespuren über 20 verschiedene Begriffe. In der Rei- 
henfolge ihres Erscheinens im Text sind das: „Bearbeitungsspuren“, „Kommenta- 
re“, „Korrekturen“, ,,Nachtrage[]“, „Zusätze[]“, „Ergänzungen“, „Eintragungen“, 
„Anmerkungen“, „Lesespuren“, „Marginalien“, „Phänomen der Handschrift im 
Buch“, „Annotationen“, „Randnotizen“, „Einträge“, „Anstreichungen“, „Randglos- 
sen“, „Randschriften“, „graphische Merkzeichen“, „Randmarkierungen“, „Notizen 
von des Dichters Hand“, „Randbemerkungen“, „Änderungen“, „Aufzeichnungen“ 
und schließlich „Lektürespuren“. Diese substantivischen Begriffe werden bei Atze 
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zudem oft kombiniert mit Verben wie , annotier[en]* und Adjektiven wie „eigenhän- 
dig“ oder „handschriftlich“.3 Das Begriffsfeld für die Beschäftigung mit Lesespuren 
ist also bereits breit abgesteckt. Was hingegen fehlt, sind klare Definitionen, die 
die untersuchten Phánomene systematisch charakterisieren und voneinander 
abgrenzen. 

Der Begriff der Annotation ist auf diesem Feld nur einer von vielen und sein 
Geltungsbereich ist unklar. Klar ist einzig, dass er nicht als Synonym zum Begriff 
der Lesespur taugt, denn terminologisch konsequent müssen auch Eselsohren 
und schiefe Buchrücken als Lesespuren gelten — als Annotationen würde diese 
aber wohl kaum jemand bezeichnen. Wie lásst sich der Begriff der Annotation im 
Hinblick auf Lesespuren also charakterisieren? Wo sind seine Grenzen? 

Etymologisch geht die Annotation auf das Lateinische zurück. Das Wort setzt 
sich zusammen aus dem Práfix ad- und dem Verb notare, welches wiederum aus 
dem Substantiv nota für „Kenn-, Merk, Schrift-, Tonzeichen, Anmerkung“ (siehe 
den Eintrag ‚Note‘ in Etymologisches Wörterbuch des Deutschen 1993) beziehungs- 
weise „Kennzeichen, Zeichen, Merkmal, Schrift, typographische Zeichen“ (siehe 
den Eintrag ‚notieren‘ in Etymologisches Wörterbuch der deutschen Sprache 2011) 
abgeleitet ist (vgl. auch den Eintrag ,annotate‘ in The Concise Oxford Dictionary of 
English Etymology 1996). Auch im Deutschen, Englischen und Franzósischen noch 
klingt der Begriff der Annotation an die Verben notieren, to note oder noter an und 
befindet sich damit in der Nähe von schreiben.“ Implizit wird er denn auch oft im 
Sinne schriftlicher Lesespuren verstanden, zum Beispiel im Kommentierten Kata- 
log der nachgelassenen Bibliothek von Johannes Bobrowski, wo Dalia Bukauskaité 
Annotationen als ,Randbemerkungen Bobrowskis zum Text“ (Bukauskaité 2006, 
XXXIX) definiert. Auch im Digitalisierungsprojekt zu Herman Melvilles Bibliothek 
werden „annotations“ auf schriftliche Phänomene beschränkt, da sie von „mar- 
kings“ unterschieden werden; es heißt dort jeweils, ein bestimmtes Exemplar sei 
,marked and annotated* (Olsen-Smith et al. 2008). 

Gar keine Rolle spielt das Schriftkriterium in Bezug auf den Begriff der Annotati- 
on hingegen im neueren Digitalisierungsprojekt Derrida's Margins. Die Annotation 
ist dort kein unter-, sondern ein übergeordneter Terminus. So gelten auch jene 
Seiten als , annotated pages“, die zum Beispiel nur Anstreichungen aufweisen, und 
die Facette , Annotation Type“ in der Suchfunktion umfasst Auswahlmóglichkeiten 
wie „underlining“, „circling“, „arrow“ und explizit auch „nonverbal annotation“ 
(Center for Digital Humanities at Princeton 2018). 


3 Aufgeführt werden hier nur die Begriffe, die Atze selbst verwendet; dazu kämen noch weitere, 
die er aus anderen Texten zitiert, vgl. Atze (2011). 
4 Vgl. dazu auch Fischer (1997, 99), der Notation für einen „neutraleren“ Terminus als Schrift hält. 
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Abb. 1: Manns ‚Aha!‘-Marginalie in Schaeders Abb. 2: Ausrufezeichen, Anstreichung und 
Goethes Erlebnis des Ostens Unterstreichungen im selben Exemplar 


Wahrend sich die eingangs erwáhnte ,Aha!‘-Marginalie also ohne Weiteres als 
Annotation bezeichnen lässt, ist der Fall bei den Lesespuren auf Abbildung 2 
schon etwas unklarer.’ Um Schrift handelt es sich hier zumindest bei den An- und 
Unterstreichungen nicht mehr - aber noch um Annotationen? Und wie verhielte 
es sich mit den Spuren von Textmarkern, die nichts Anderes als farbige Markie- 
rungen sind? Lassen sich auch diese Phánomene als Annotationen bezeichnen? 
Zu solchen Fragen finden sich in verschiedenen wissenschaftlichen Disziplinen 
widersprüchliche Ansichten, und zwar auch innerhalb der jeweiligen Disziplin. 

In den 1990er und 2000er Jahren haben sich beispielsweise verschiedene For- 
schungsgruppen aus den Human-Computer Studies Gedanken darüber gemacht, 
wie man das Annotieren auf Papier in digitale Techniken überführen kann. In- 
teressant sind diese Bemühungen aus Sicht der Lesespurenforschung, weil die 
Forschenden dazu naturgemäß erst das Annotieren selbst beziehungsweise die 
Materialisierung der damit verbundenen Praktiken konzeptualisieren mussten. 
Und tatsächlich zeigten sich hierbei ähnliche Differenzen, wie sie auch in der 
stárker geisteswissenschaftlich ausgerichteten Lesespurenforschung zu finden 
sind. Während etwa die Gruppe um Ilia Ovsiannikov bloße Markierungen ebenfalls 
als Annotationen bezeichnete (Ovsiannikov et al. 1999, 335), distanzierten sich 
Daniela Fogli et al. ausdrücklich von dieser Auffassung: 


On the whole, a human creates an annotation using a set of graphical elements which s/he 
considers meaningful (letters, elements of an alphabet, icons). S/he uses visual identifiers 
and visual links whenever s/he considers necessary to make the link between annotation and 
base clearer. This stance is different for example from the one in [Ovsiannikov et al.], where 
marking is considered as a form of annotation and visual linking not explicitly considered. 
(Fogli et al. 2004, 98) 


5 Abbildung 2 zeigt einen Ausschnitt aus Schaeder (1938, 141), siehe Datenbank Thomas Mann 
Nachlassbibliothek, Thomas Mann 552, Bild 158 (abgerufen am 14.10.2019). 
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Wo die Grenzen des Annotationsbegriffs verlaufen (sollen), ergibt sich also auch 
in dieser Forschungsperspektive nicht von selbst, sondern ist Gegenstand von 
definitorischen Aushandlungen und variiert je nach Anwendungskontext. 

Gemeinsam ist den unterschiedlichen Annotationskonzepten auf dem gesam- 
ten Feld zwischen Informatik, Kognitionswissenschaft und Linguistik derweil ihre 
funktionalistische Ausrichtung. Annotationen werden im dortigen Verstándnis 
immer intentional und zweckgerichtet angelegt. Der Annotationsbegriff folgt auf 
diesem Feld - bei aller konzeptionellen Diversität — einer Verengung seines etymo- 
logischen Gehalts: Annotieren heißt in diesem Sinn nicht nur Zeichen produzieren, 
sondern Zeichen zu einem bestimmten Zweck produzieren. 

Auf diesem weiten Feld außerhalb dessen, was ich im engeren Sinn als Lese- 
spurenforschung bezeichne, wurde von verschiedener Seite vorgeschlagen, den 
Begriff der Annotation über die Funktion der Hinzufügung zu einem Text zu defi- 
nieren. So wird der Begriff der Annotation zum Beispiel im Glossar des Projekts 
forTEXT wie folgt beschrieben: „Die manuelle oder automatische Hinzufügung 
von Zusatzinformationen zu einem Text. Bereits eine Kursivierung oder Fettung 
kónnen in einem weiten Begriffsgebrauch als Annotationen bezeichnet werden.“ 
(Meister 2016, Hervorhebungen im Original). 

Typisch für solche Definitionen ist die implizite Unterscheidung von Annotati- 
onsbasis (in diesem Fall ein Text) und der eigentlichen Annotation, der immer die 
Form eines Zusatzes, die Eigenschaft der Sekundaritát eignet. Bemerkenswert ist 
indes, wo das Glossar von forTEXT die Grenze zwischen der Basis und der Sekun- 
darität zieht: Wird ein Text in seiner konkreten Erscheinung modifiziert, kann das 
im weiten Begriffsgebrauch bereits eine Annotation sein. 

Übertrágt man dieses Begriffsverstándnis auf das Feld der Lesespurenfor- 
schung, dann sind also auch die Phánomene auf Abbildung 2 auf der vorheri- 
gen Seite Annotationen. Doch auch dieser weite Begriffsgebrauch, der selbst das 
umfasst, was die Typographie Auszeichnung nennt, lásst sich mit Grenzfállen kon- 
frontieren, etwa einer Streichung wie auf Abbildung 3 auf der nächsten Seite.$ Ist 
auch diese Lesespur eine Hinzufügung von Zusatzinformation? Oder ist es eher 
eine Informationsmodifikation und damit allenfalls keine Annotation? Aus philo- 
logischer Sicht ist das keine einfache Frage und ihre Beantwortung hángt von der 
jeweiligen Perspektivierung ab. 

Eine Hinzufügung ist das gezeigte Phánomen nur, wenn man die spezifisch 
materielle Konstellation berücksichtigt, die hier vorliegt. Hätte Thomas Mann die 
Möglichkeit gehabt, den gezeigten Text in digitaler Form zu lesen, hätte er das 


6 Abbildung 3 zeigt einen Ausschnitt aus Mann (1954, 100), siehe Datenbank Thomas Mann 
Nachlassbibliothek, Thomas Mann 114, Bild 105 (abgerufen am 14.10.2019). 
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1903 
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Abb. 3: Mann korrigiert eine gedruckte Ausgabe seiner Erzählung Tonio Kröger 


gestrichene Wort móglicherweise einfach gelóscht und durch dasjenige ersetzt, 
das er hier neben der Zeile eingefügt hat. Hier haben wir es aber mit einer anderen 
materiellen Konstellation zu tun, denn es handelt sich um einen gedruckten Text, 
der sekundar mit einem Stift bearbeitet wurde. Materiell gesehen wurde hier nichts 
ersetzt, sondern dem gedruckten Text wurde, wenn man so will, die Information 
hinzugefügt, dass da ein Stift am Werk war. 

Damit ist denn auch das Gemeinsame aller bisher gezeigten Phánomene be- 
nannt - es ist das Medium ihrer Produktion beziehungsweise die daraus resul- 
tierende Materialitát: Es handelt sich um die Spuren von Stiften. Und um den 
zentralen materiellen Aspekt dieser bestimmten Art von Annotationen hervorzu- 
heben, nenne ich diese Phánomene Stiftspuren. 


3 Epistemologie 


Wie das in Thomas Manns Nachlassbibliothek erhaltene Material zeigt, hat Mann 
vor allem in Sachtexten Stiftspuren hinterlassen — also eben in Texten wie Schae- 
ders Goethes Erlebnis des Ostens. Literarische Texte hingegen, auch solche, von 
denen bekannt ist, dass er sie gelesen hat (und zwar in der jeweils vorliegenden 
überlieferten Ausgabe), weisen oft wenige bis gar keine Stiftspuren auf (vgl. dazu 
Bamert, in Vorbereitung). 

Ein ebenso einfacher wie zentraler Grund für die Lektüre eines Textes kann 
sein, dass dieser Wissen bereithält, über das sich die lesende Person kundig ma- 
chen will. Ich móchte eine solche Lektüreweise in der Folge epistemisch nennen 
und sie heuristisch von anderen, zum Beispiel dsthetischen Lektüren, unterschei- 
den. In einer epistemischen Lektüre wird ein Text demnach als Wissenstráger 
rezipiert, in einer ásthetischen Lektüre hingegen wird der Text vorrangig als Kunst- 
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werk wahrgenommen. Diese Unterscheidung ist freilich nicht dichotomisch oder 
antagonistisch zu verstehen, sondern im Sinne zweier Prinzipien, die auch in eins 
fallen oder sich gegenseitig ergánzen oder überlagern kónnen. 

Die Unterscheidung zwischen epistemischen und ästhetischen Lektüren zielt 
also auf unterschiedliche Zugangsweisen zu einem Text und nicht auf die Cha- 
rakterisierung des Textes selbst. Jeder Text kann Gegenstand unterschiedlichster 
Lektüreformen werden. Und doch stehen die Beschaffenheit eines Textes und der 
Zugang zu diesem in einem wechselseitigen Wirkungsverhältnis, das erst recht in- 
trikat wird, wenn man noch weitere Faktoren hinzuzieht. Erstens gibt es empirisch 
beschreibbare Textualitätsmuster, aufgrund derer man einen Text einer Textsorte 
zurechnen kann, zweitens ist da das lesende Subjekt, das diesen Bezug auf je 
eigene Weise vollzieht, drittens gilt es die Instanz des Autors beziehungsweise 
der Autorin zu berücksichtigen, die die Rezeption nicht zuletzt auch paratextuell 
beeinflusst, und viertens existieren noch vielfáltige weitere lektüreregulierende 
Aspekte, die man unter dem Sammelbegriff der Kontexte zusammenfassen kann.’ 

Geht man nun davon aus, dass Textsorten innerhalb dieses Gefüges eine kom- 
munikative Funktion erfüllen (vgl. dazu Hausendorf et al. 2017, 319), dass zudem 
gewisse Texte musterhaft der kommunikativen Aufgabe der Wissensvermittlung 
dienen und beobachtet man schließlich, dass vorzugsweise gerade diese Texte an- 
notiert werden, dann hat man hierin einen ersten Hinweis darauf, dass das Lesen 
mit dem Stift unter bestimmten Umstánden eine Fortführung der epistemischen 
Lektüre mit dinglichen Mitteln sein kónnte. Das Lesen mit dem Stift ware dann 
selbst als epistemische Praxis zu beschreiben. 

In kognitionswissenschaftlich ausgerichteten Forschungsansátzen ist diese 
Sichtweise jedenfalls bereits verbreitet, wenn auch mittels anderen Vokabulars. 
Kenton P. O'Hara et al. beispielsweise, die sich der Readers-as-Writers-Thematik aus 
der Perspektive der Human- Computer Studies annahmen, haben dem Annotieren 
wahrend des Lesens vielfáltige Funktionen zugeschrieben und es explizit mit dem 
Wissen der Lesenden in Verbindung gesetzt: 


Annotations help engage the writer with the source materials supporting a whole range of 
activities such as navigation, linking information across source materials and between source 
materials and composition, structuring thoughts, offloading new idea threads to be followed 
later on in the composition and offloading the results of tasks taking place across multiple 
documents. The annotations used during these tasks were not stand-alone but rather were 


7 Die vier aufgeführten Kategorien gehen auf das Modell der literarischen Kommunikation zurück, 
vgl. Kóppe (2011, 2). Unter Kontexte seien all jene für das literarische Feld relevanten Faktoren 
zusammengefasst, die durch die Text-, Leser/Leserin- und Autor/Autorin-Instanz nicht abgedeckt 
sind, zum Beispiel weitere Institutionen des Literaturbetriebs oder gesellschaftliche Verhältnisse 
und Diskurse. 
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pointers to knowledge remembered, or represented internally, by the author. (O'Hara et al. 
2002, 298) 


Das Annotieren wird hier also als Hilfsmittel zur Orientierung, Informationsver- 
knüpfung, Strukturierung und kognitiven Entlastung wáhrend des Lesens beschrie- 
ben und die resultierende Annotation als Hinweis auf das Wissen der lesenden 
Person verstanden. Noch stárker systematisiert findet sich diese Sichtweise in 
der Unterscheidung zwischen kognitiven Organisations- und Elaborationsstrate- 
gien, wie sie Philipp Maik dargelegt hat. Als kognitive Organisationsstrategien 
bezeichnet Maik diejenigen Techniken, die Lesenden dabei helfen, ,,die Struktur 
des Texts und der in ihm enthaltenen Informationen zu erkennen“ (Maik 2015, 
215). Die Organisationsstrategien werden von Lesenden, die auf einen Wissens- 
transfer aus sind, angewandt, um Texte beziehungsweise deren Elemente so zu 
(re)konfigurieren, dass sie sich in die eigenen mentalen Prozesse einpassen lassen 
— was explizit auch Stiftgebrauch umfassen kann: „Beispiele für diese Form der 
Strategien sind das Unterstreichen von zentralen Begriffen, das Anfertigen von 
Zusammenfassungen, Notizen und Schaubildern oder auch die Darstellung einer 
Argumentationsstruktur.“ (Maik 2015, 215). 

Dass es sich dabei um ein Zusammenspiel von Textwissen und Lesendenwissen 
handelt, wird noch klarer bei der Beschreibung der kognitiven Elaborationsstrate- 
gien, bei denen es darum geht, „über die eigentlichen Textinhalte hinauszugehen 
(sie zu elaborieren), um die Textinhalte ins Langzeitgedächtnis zu integrieren“ 
(Maik 2015, 215). In der Verarbeitung der Informationen, die der Text bereithält, 
wirkt das Lesendenwissen hier explizit als gestaltende Kraft, denn wie die Elabo- 
ration des Textwissens erfolgt, hängt maßgeblich davon ab: Eine lesende „Person 
aktiviert beispielsweise ihr Vorwissen vor dem Lesen, stellt offene Fragen an den 
Text, kommentiert ihn, klart unbekannte Wórter oder versucht, den weiteren Text- 
inhalt zu prognostizieren.“ (Maik 2015, 215). 

Aus kognitionswissenschaftlicher Sicht scheinen Wissensbestande den Stift- 
einsatz während der Lektüre also in zweifacher Form zu bestimmen: Wie sich schon 
in der textsortenspezifischen Lesespurenverteilung andeutet, führt einerseits ins- 
besondere das in den gelesenen Büchern vorgefundene Wissen zu Markierungen 
und Marginalien durch Stifte. Vor diesem Hintergrund kann man etwa Unterstrei- 
chungen als Segmentierung eines Textes in einzelne Informationen verstehen und 
Pfeile, Umrahmungen, Farbmarkierungen und Nummerierungen dienen entspre- 
chend der komplexeren Darstellung von Informationsstrukturen und -relationen. 
In dieselbe Kategorie lassen sich jene Marginalien einordnen, die am Rand des 
gedruckten Textes dessen Inhalte in Stichworten zusammenfassen und so das 
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Textwissen zugänglicher machen sollen.® Andererseits spielt auch das durch die 
Lektüre angeregte Wissen der Lesenden eine Rolle und wird in Stiftspuren sichtbar, 
zum Beispiel durch Kommentare, die auf das in den Drucktexten reprásentierte 
Wissen eingehen und es mit eigenem Wissen konfrontieren. In der Lektüre mit dem 
Stift reagiert demnach das Wissen beziehungsweise das Nichtwissen der Lesenden 
mit dem Wissen beziehungsweise Nichtwissen der Texte. 

Doch an diesem Punkt darf man nicht stehen bleiben. Man sollte vielmehr 
stets davon ausgehen, dass weitaus mehr Wissensformen und -bestánde an einem 
Lektüreprozess beteiligt sind als nur ein Textwissen und das Wissen der lesenden 
Person. Auch hier móchte ich eine heuristische Abstraktion anregen und ange- 
lehnt an das Modell der literarischen Kommunikation (vgl. dazu Kóppe 2011, 2, 
bzw. Fn. 7) vorschlagen, in die Lesespurenforschung mindestens vier Wissens- 
kategorien einzubeziehen: neben dem Textwissen (T-Wissen) und dem Wissen 
der lesenden Person (L-Wissen) auch das Wissen der Autoren beziehungsweise 
Autorinnen (A-Wissen) und das Kontextwissen (K-Wissen). 

Es versteht sich von selbst, dass eine solche Abstraktion enorm divergierende 
Wissenskonzepte impliziert. Doch kann gerade die Ausarbeitung der jeweiligen 
Divergenzen - im Sinne einer Heuristik eben - produktive Effekte zeitigen. In dem 
Moment, in dem man neben dem T-Wissen und dem L-Wissen auch ein A-Wissen 
und ein K-Wissen in Betracht zieht, öffnet sich der Blick für epistemische Aspekte 
von Lesespuren, die vorher notwendigerweise unbeachtet blieben. So, wie man 
einen (literarischen) Text je nach theoretischem und methodischem Ansatz aus 
unterschiedlichen Perspektiven analysieren kann (im Hinblick auf seine textuelle 
Eigenlogik, auf die Rezeption durch Lesende, als Produkt eines Autors beziehungs- 
weise einer Autorin oder auf die ihn beeinflussenden Kontexte), so kann man in der 
epistemologischen Analyse auch Lesespuren unterschiedlich perspektivieren und 
sie hinsichtlich des T-Wissens, des L-Wissens, des A-Wissens oder des K-Wissens 
untersuchen. 

Reduziert man die Lesespurenforschung hingegen auf die Beziehung zwischen 
T-Wissen und L-Wissen, schließt man schlicht bestimmte Wissensformen und 
-bestánde aus und generiert damit Blindstellen. Zwar scheint die Reduktion auf 
das Zusammenspiel von T-Wissen und L-Wissen oft naheliegend, da die anderen 
Wissensinstanzen nur abstrakt vorliegen. Eine Marginalie zum Beispiel, deren 
Referenz offenkundig ist, verweist vermeintlich direkt auf das Textwissen, das zu 
ihrer Entstehung angeregt hat, und auf das Wissen der lesenden Person, das sich 


8 Solche Marginalien scheinen in funktionaler Hinsicht ihre gedruckten Verwandten zu imitieren, 
denn auch gedruckte Marginalien „schaffen durch Ergänzungen wie Definitionen, Kommentare, 
Zitate und Verweise einen Zusatznutzen für den Leser*, siehe Huse (2015). 
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in der Marginalie auf die eine oder die andere Weise manifestiert hat. Das K-Wissen 
und das A-Wissen treten hinter diese scheinbar unmittelbaren Wissensformen 
zurück und es leuchtet ein, dass sie nur durch indirekte analytische Verfahren 
ermittelt werden kónnen. 

Bei genauerem Hinsehen gilt genau letzteres aber für alle Wissensinstanzen, 
denn es gibt keine Wissensform, deren Beteiligung an der Entstehung von Lese- 
spuren sich unmittelbar zeigt. Auch die simpelsten Lesespurphánomene setzen 
interpretative Verfahren voraus, will man ihre Bedeutung ermessen und das Wis- 
sen rekonstruieren, das zu ihrer Manifestation geführt hat. Selbst die einfórmigste 
Markierung ergibt sich nicht einfach von alleine aus dem Text oder aus Kopf und 
Hand der lesenden Person, sondern immer aus einem sozial regulierten und gleich- 
zeitig situativ modulierten Zusammenspiel mehrerer Instanzen, und jede dieser 
Instanzen ist mit ihren je spezifischen Wissensbeständen in Betracht zu ziehen. 
Welche Informationen jemand für wichtig — mit anderen Worten: wissenswert — 
erachtet, hängt von vielen Faktoren ab. Das epistemologische Erkenntnispotential 
von Lesespuren liegt demnach nicht nur darin, dass sie Spuren des Wissens von 
Lesenden und Gelesenem sind. Sie sind auch Spuren des Wissens der Autoren oder 
Autorinnen und der Kontexte ihrer Entstehung - und der jeweiligen Relationen 
dieser Wissensformen und -inhalte zueinander. 

Ich komme damit nochmals auf Manns vermeintliches Aha-Erlebnis zurück. In 
einem Aha-Moment zeigt sich — normalerweise - so etwas wie ein Erkenntnismo- 
ment, man kónnte auch sagen: das Verschwinden eines Nichtwissens. Betrachtet 
man die ,Aha!‘-Marginalie isoliert, kónnte man darin demnach Manns Nichtwissen 
erkennen, dem angesichts eines T-Wissens ein Erkenntnismoment widerfährt. Tat- 
sächlich verhält es sich in diesem Fall jedoch genau umgekehrt. Das ‚Aha!‘ ist hier 
Ausdruck eines L-Wissens, das dem T-Wissen überlegen ist. Man muss Manns ,Aha!' 
im Kontext aller Marginalien lesen, die er in Schaeders Buch hinterlassen hat. Sie 
lauten zum Beispiel: „Dummkopf“, „Pfui!“, „Unverschämt!“ sowie „Schafskopf 
und Fälscher“ (siehe Abbildungen 4 und 5 auf der nächsten Seite)? 

Manns Ärger wird verständlich, wenn man sich mit Schaeders Buch auseinan- 
dersetzt. So heißt es im 2003 erschienenen Kommentarband zur Neuedition von 
Lotte in Weimar über Schaeders Buch: 


Der Berliner Orientalist liest Goethe aus dem Geiste der nationalsozialistischen Bewegung 
und hat seine liebe Mühe, gerade dessen Hinwendung zum Osten, zur orientalischen Dich- 
tung und Philosophie, wie auch seine Haltung in der Zeit der vaterländischen Begeisterung 


9 Die Marginalien „Dummkopf“ und „Unverschämt!“ finden sich in Schaeder (1938, 14, 20), 
Abbildungen 4 und 5 zeigen Ausschnitte aus Schaeder (1938, 19, 46). Siehe Datenbank Thomas 
Mann Nachlassbibliothek, Thomas Mann 552, Bilder 31, 36, 37, 63 (abgerufen am 14.10.2019). 
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Anregun; 


Goethe le 
hm glaubte er den der bleib 


h seiner Größe of- Acheron 


gte. nahme, v 
lichen fes 
spruchs, 


Abb. 4: ,,Schafskopf und Falscher“ Abb. 5: ,,Pfui!“ 


so hinzubiegen, dass sie 1938 politisch korrekt wirken. ,Fálscher' nennt ihn Thomas Mann 
deshalb zu Recht und mit besserem Wissen, wenn Schaeder behauptet, die ,deutsche Er- 
hebung‘ von 1813 habe Goethes ‚Gemüt‘ bewegt. (Mann 2003, 114. Keine Hervorhebung im 
Original) 


So wichtig das Buch als Quellenliteratur für Thomas Mann auch war, so deutlich 
war seine Abneigung gegen das „deutsch-völkisch orientierte Buch“ (Mann 2003, 
114). Seine Lektüre beschrieb Mann in seinem Tagebuch als „ärgerlich, aber in- 
teressant“.1° Mit besserem Wissen also liest Thomas Mann seinen Schaeder und 
in diesem Sinn muss wiederum sein ‚Aha!‘ gelesen werden. Mann markiert hier 
keine Erkenntnis, vielmehr markiert er in ironischer Weise gerade die Absenz eines 
Erkenntnismoments. Auf diese Weise macht er die für das Verhältnis zwischen 
Sachtext und lesender Person eigentlich geltende Hierarchie transparent — und 
offenbart in dieser Geste ein weiteres, implizites Wissen über die zu erwartende 
Hierarchie zwischen T-Wissen und L-Wissen: Normalerweise müssten Sachtexte 
dem Wissen derjenigen, die sie lesen, überlegen sein. 

In diesem Fall ist das anders (zumindest stellenweise, denn Mann hat durch- 
aus ausgiebig Wissen aus Schaeders Buch verarbeitet). Mann selbst zieht eine 
weitere Instanz in die Pflicht, indem er nicht nur auf den Text zielt, sondern dessen 
Autor kritisiert und diesem als Fälscher die Verbreitung von Falschwissen vorwirft. 
Worauf man, aus der heutigen, historisierenden Perspektive schließlich, die ,Aha!*- 
Marginalie als Spur eines Kampfes um die Etablierung des richtigen Wissens sehen 
kann, das dereinst in der Form historischer Tatsachen zum K-Wissen werden sollte. 

Das Beispiel zeigt, dass bei einer Lektüre auch andere Relationen móglich 
sind als nur diejenige zwischen Text und lesender Person, wie es funktional ratio- 
nalisierte Modelle nahelegen. Und es zeigt überdies, dass Annotationen auch in 
weltanschaulicher Hinsicht zu verstehen sind. Der kognitionswissenschaftliche 


10 Tagebucheintrag vom 28. Juli 1938, siehe Mann (1980, 262). 
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Befund, dass Annotationen dazu dienen, Lesende kognitiv zu entlasten und Mate- 
rial zu strukturieren, ist eine hilfreiche Standardformel. Doch wer mit Stiften liest, 
kann noch mehr wollen, zum Beispiel korrigieren und kommunizieren - mithin 
wahrend des Lesens bereits schreiben. Gerade die Falle, in denen Stiftspuren in den 
bestehenden Text eingreifen, sind aus philologisch-hermeneutischer Sicht hóchst 
komplex, weil das Lesen dabei tatsáchlich übergangslos in ein Schreiben kippen 
kann. Auch dieses Verháltnis lásst sich freilich wieder als Wissensrelation verste- 
hen, wenn nämlich ein T-Wissen mit einem überlegenen L-Wissen konfrontiert 
und überschrieben wird. 


4 Praxeologie 


Ich habe skizziert, was ich meine, wenn ich das Lesen mit dem Stift als episte- 
mische Praxis bezeichne. Unterbestimmt ist jedoch noch, worin hierbei der Pra- 
xisaspekt besteht — und ich halte das für ein größeres, die Möglichkeiten meines 
Beitrags übersteigendes Desiderat. Was der Lesespuren- beziehungsweise der An- 
notationsforschung fehlt, ist eine ausgereifte Praxistheorie auf der Grundlage von 
Detailstudien des Annotierens. Eine Theorie also, die nicht nur nach bestimmten 
Funktionen von Handlungen fragt, sondern nach den historischen und kulturellen 
Bedingungen, unter denen diese Handlungen realisiert werden. Erst dann nämlich 
werden die Handlungen „als an impliziten Normen orientierte Handlungsroutinen“ 
(Martus und Spoerhase 2009, 89) und somit als Praktiken erkennbar, die ansonsten 
allzu oft theoretisch unbeachtet bleiben (vgl. dazu auch Wolff 2008). 

Konfrontiert man die kognitionswissenschaftliche Sichtweise auf Annotatio- 
nen mit einer kulturhistorischen Perspektive, prásentiert sich die Sachlage notwen- 
digerweise komplex, da weitere Ebenen in die Analyse von Lesespuren einbezogen 
werden müssen. Der rein funktionale Erklärungsansatz wird in dieser Perspektive 
durch den Imperativ der gesellschaftlichen und zeitlichen Situierung herausgefor- 
dert. Annotationen sind demnach nicht nur als Manifestation kognitiver Prozesse 
zu verstehen. Annotationen sind die praktische Umsetzung des sozial regulierten 
Wissens vom epistemischen Potential der Stifte. 

So müsste eine Praxeologie etwa nach den kórperlichen Aspekten des Annotie- 
rens fragen. Welche Rolle wird der Kórperhaltung und bestimmten Kórperteilen für 
je unterschiedliche Lektüreformen und den ihnen entsprechenden Annotations- 
praktiken beigemessen? Welches inkorporierte Praxiswissen steckt móglicherweise 
in welchen Annotationsformen? Vielleicht kónnte man damit noch besser in den 
Blick bekommen, warum sich bei Annotationen mit Stiften die Strichführung oft- 
mals nicht nur im Fall von schriftlichen Annotationen, sondern sogar von An- und 
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Unterstreichungen einer bestimmten Person zuordnen lassen, warum also selbst 
einfachste Annotationen einen eigenen Duktus aufweisen. Bei gewissen Annotati- 
onspraktiken ist der kórperliche Anteil jedenfalls im Wortsinn nicht von der Hand 
zu weisen (nicht umsonst spricht auch die Editionsphilologie in metonymischer 
Weise von der Hand, wenn sie die Person meint). 

Eine solche Praxeologie müsste des Weiteren nach den situationellen Aspek- 
ten des Annotierens fragen und beschreiben, unter welchen Umstánden annotiert 
wird, beziehungsweise in welche Situationen sich eine lesende Person bringen 
muss, um annotieren, also in dieser spezifischen Weise epistemisch tátig sein zu 
kónnen. Welche Medien(-konstellationen) erlauben mobile Lektüren und Annota- 
tionspraktiken on the go? Welche Stifte werden zu einer bestimmten Zeit wem und 
von wem aus welchen Gründen für welche Situationen empfohlen? Nicht zuletzt 
kónnte man durch die Integration dieser praxeologischen Perspektiven das Lesen 
mit dem Stift und das Annotieren in neuartiger Weise mit den verwandten Prak- 
tiken des Exzerpierens, Notizenmachens und Schreibens"! abgleichen und dabei 
schárfen. 

Methodisch müsste sich eine Praxeologie des Annotierens gleichermaßen 
diskursive Wissensformen über die Praktiken wie auch die Spuren der Praktiken 
selbst vornehmen, und so auch dem impliziten und praktischen Wissen vom An- 
notieren nachspüren. Wie und wo lernt man etwa die Praktiken und die Tabus 
des Stiftgebarens in Büchern? Gerade bezüglich des Praxiswissens, das man an 
der Schnittstelle zwischen Epistemologie und Praxeologie verorten muss, sind 
von einer zukünftigen Lesespurenforschung noch weitere Erkenntnisse zu erwar- 
ten. Denn es ist in erster Linie dieses Wissen, über das wir oftmals nur vor- oder 
unbewusst verfügen und das wir deswegen gar nicht als solches wahrnehmen. 

Vor allem aber müssten praxeologische Studien den kommunikativen Aspek- 
ten des Annotierens nachgehen. Diese Perspektive würde helfen, Annotationen 
über ihr Dasein als Spuren epistemischer Praktiken hinaus auch als kommunika- 
tive Boten zu verstehen.?? In diesem Verständnis erkennt man die Annotationen 
also nicht mehr nur als Rückstand von etwas Vergangenem an, sondern in actu als 
Realisierung von Kommunikationspraktiken. Im Bereich der Lesespuren ist hier 
zum Beispiel an die Marginalien zu denken, die als Lob oder als Beleidigungen 
am Rande daherkommen. Aber auch in anderen Umgebungen lassen sich viele 
Annotationen als spezifische Kommunikationsformen verstehen, beispielsweise 
als Kommentare, ein genuin kommunikatives Phánomen also. 


11 Vgl. dazu den Beitrag von McCarty (2020, in diesem Band). 
12 Vgl. zur Unterscheidung von Spuren und Boten Krämer (2016). Spezifischer noch zur Anwen- 
dung des Boten-Konzepts auf Annotationen vgl. Jessen (in Vorbereitung). 
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Man könnte schließlich sogar versuchen, das Verhältnis von lesender Person 
zu Text und Autor beziehungsweise Autorin als Machtverhältnis zu verstehen, 
als Machtverháltnis unter ungleichen Akteuren und Akteurinnen. Die Stiftspuren 
kónnen dann auch Ausdruck einer Bewegung sein, die den Ausgleich eines asym- 
metrischen Machtverháltnisses sucht. So kann ein Text einer lesenden Person ein 
Wissen vermitteln, was umgekehrt nicht in der gleichen Form móglich ist. Ganz 
machtlos ist die lesende Person aber eben auch nicht: Weiß die lesende Person 
es besser, hat sie mit dem Stift ein kleines Machtausgleichsinstrument, mit dem 
sie einen Text immerhin korrigieren kann. Oder deren Autor als Propagandisten 
bloßstellen. Und sei es nur am Rande. 
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Tamara Drummond and Janina Wildfeuer 
The Multimodal Annotation of Gender 
Differences in Contemporary TV Series 


Combining Qualitative Questions and Quantitative Results 


Abstract: Combining theoretical and methodological questions, this chapter de- 
scribes one approach to the multimodal annotation and analysis of audio-visual 
artefacts using the ELAN annotation tool. In particular, we focus on the multimodal 
construction and representation of gender differences in contemporary American 
TV series by qualitatively and quantitatively analysing the beginnings of TV shows. 
In doing so, we consider various modes and aspects in order to show how meaning, 
especially in the construction of the main characters, is created within and across 
the semiotic modes employed. 


Keywords: Annotation Template, Levels of Annotation, Role of Interpretation, 
Media Types, Segmentation, Multimodality 


1 Introduction: From cultural ideology to 
multimodal analyses 


This chapter aims to build a bridge between qualitative and quantitative approaches 
to the analysis of audio-visual artefacts and demonstrate how a well-developed 
ELAN annotation scheme supports both the semantic analysis and further higher- 
level interpretations of very complex media such as TV series. We will focus on a 
comparative analysis of the multimodal representation of gender differences in 
contemporary TV series. 

TV series are complex multimodal artefacts that construct their meaning with 
various communicative forms of expressions, or semiotic modes, such as moving 
images and sound, music, specific camera and editing techniques, lighting, etc. 
(see Bateman et al. 2017 for a general overview of multimodality and complex 
multimodal artefacts as well as, e.g., more specifically O'Halloran 2004, Wildfeuer 
2014, Bednarek 2015 for film and/or TV series). One specific aspect of the meaning 
created is, for example, the representation of female and male main characters, 
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who, as integral parts of the show's narrative, are often already introduced in 
complex ways in the pilot episode of each series. 

As parts of the broader culture within which they are produced and consumed, 
TV series draw on common cultural representations, convey cultural norms, and 
thus often provide an image of this culture. Concerning the role visual culture 
plays in modern societies, Green (1998) argues that this role “is given by the very 
nature of those societies, and by the peculiar supporting role that ideology does 
and must play in them" (Green 1998, 15).' In particular, characters are an important 
constituent of the TV series and as such also influenced by the culture within 
which the show was produced and is consumed (see, e.g., Eder 2008, 12-15, 21-22, 
McCrohan 1990, 5). Eder (2008, 13) argues that viewers focus on (human-like) 
characters because they are participants who are attributed consciousness and 
the ability to act within the respective story-world. 

Movies and TV shows influence their viewers in various ways (see, e.g., Gali- 
cian 2004; Green 1998). By drawing on stereotypes and principles which the viewer 
is already familiar with through his or her embeddedness in the culture, these 
stereotypes are reinforced. Nelmes, for instance, points out that the images used 
in film are "concentrated, symbolic and highly charged" (Nelmes 2007, 221) and 
that the viewers of mainstream films “are clearly intended to identify with and 
recognise certain character types and gender types" (Nelmes 2007, 221). Films or TV 
series draw on particuar stereotypes by relying on filmic elements and conventions 
already esatblished to represent, for instance, notions of femininity and masculin- 
ity. With this background, it can be both "interesting and revealing to look at how 
film characters are made recognisable and how we understand them, what our 
culture portrays as being representative of masculinity and femininity, and what it 
tells us about our understanding of gender, sexuality and society" (Nelmes 2007, 
221). 

The specific hypothesis of the project we present here takes exactly Nelmes' an- 
alytical interest as its starting point and assumes that particularly the introduction 
of characters at the beginning of TV series constructs certain gender differences 
that influence the recipients’ understanding and interpretation of these charac- 
ters throughout the whole series. More specifically, the various gender differences 
are multimodally represented and can and should therefore be analysed with a 
multimodal framework. 

Generally speaking, in conducting multimodal research one seeks to explain 
how meaning making works within and across semiotic modes in complex me- 


1 Ideology here is defined as *the ensemble of beliefs and practices that support a (partially) 
fictious sense of community among the members of any organized human group" (Green 1998, 15). 
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dia artefacts such as comics, videogames, films, or TV series. The construction 
of characters and their gender differences is exactly one aspect of this meaning 
making and the overall multimodal complexity and has received particular atten- 
tion within recent years. Strong theoretical and methodological frameworks are 
now available not only for the analysis of multimodal artefacts in general (see 
for a recent overview and introduction into multimodality in general Bateman et 
al. 2017), but also more specifically for the identification of characters or gender 
stereotypes. 

A main challenge here remains, on the one hand, the achievement of an ade- 
quate empirical foundation for these analyses which makes it possible to process 
larger amounts of data and to compare certain media and genres. This again re- 
quires that the data is appropriately organized, classified and accessible (also 
for subsequent research) - for which comprehensive annotation and transcrip- 
tion tools are now available (see, e.g., Baldry and Thibault 2006, Bateman 2014, 
Hiippala 2015). We will demonstrate in this chapter how one of these tools can be 
used for the organization of TV series data and the analysis of character identities 
therein. 

On the other hand, an urgent issue directly connected to the annotation and 
transcription of the data is exactly to keep track of the qualitative questions that 
basically initiate the empirical testing and verification, and the analysis of the 
meaning-making processes in media artefacts. Or, as Tseng and Bateman (2018, 1) 
put it, “the task of systematically relating textual, perceptual, and ideological 
analysis poses considerable challenges". These could in general be rather basic 
questions, such as what modes are, how they work and interact, and which social 
and cultural values they construct (cf. Kress 2009, Bateman 2016). Possible further 
qualitative points of interest then encompass questions regarding higher-level in- 
terpretations and constructions, such as narrative, genre and transmedia patterns, 
or, as followed up in this chapter, gender representations. This means that one of 
the main aims in multimodal analysis today is to bring together both qualitative 
and quantitative questions, to triangulate the results from various analyses and 
tests and thus also include the more qualitative levels of description and analysis 
into the annotation and transcription of the respective artefacts. 

Our project in particular aims at combining theoretical and methodological 
questions regarding the multimodal analysis and annotation of multimodal, i.e. 
audio-visual extracts from TV series. We specifically focus on crime and mystery 
series that often feature teams of female and male main characters and more explic- 
itly on the introduction of these main characters in the pilot episodes of these series 
(see Section 3 for further details on our corpus). In order to see whether particular 
stereotypes are drawn upon in the initial construction and introduction of both 
the female and male main characters, we use a systemic-functional approach to 
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the analysis of filmic cohesion (Tseng 2013). This allows us to compare the types of 
interaction the characters have with other participants during their introduction 
into the story-world and to the viewers as well as to compare the findings across 
genres. 

In order to demonstrate our combined approach of qualitatively and quanti- 
tatively organizing and analysing the data from a small corpus of extracts from 
mystery and crime TV series, we first introduce our theoretical and methodological 
framework in Section 2. While Section 3 will shortly give an overview of the data 
and corpus of our project, Section 4 will then provide example analyses from the 
use of the transcription and analytical tools and Section 5 will show results of the 
combined examination, which we will then summarize and critically evaluate in 
Section 6. 


2 Theoretical and methodological foundations: 
A multilevel annotation scheme for multimodal 
analyses of TV series 


The multimodal analysis of gender differences in the introduction of female and 
male characters in TV series takes as a starting point the various semiotic modes 
and resources in these complex artefacts. With the aim of explicitly analysing 
how the characters are introduced in the narrative, how they are represented 
multimodally and how recipients are able to identify the respective characters, a 
focus lies both on the formal and multimodal composition of the TV episodes in 
terms of shots, specific camera techniques, sounds, music, etc., as well as on the 
description of the identification of characters and settings. 

A problem we face here is that the information to be included in a comprehen- 
sive annotation scheme require diverse and not necessarily mutually consistent 
structural organizations: descriptions of shots and camera work as technical fea- 
tures of the multimodal artefact are usually quite different to the analytical units for 
character identification on a more functional level. For instance, there is no reason 
to assume that the unit boundaries required in a description of the linguistic units 
in a film extract neatly match with boundaries necessary for descriptions of shots, 
music, etc. The same applies for most of the levels of analysis to be considered. 

We think that it is only possible to tackle this challenge of combining techni- 
cal and functional descriptions and analyses within one annotation scheme by 
working with a multilevel annotation scheme, or a ‘stand-off’ annotation, in which 
structural information is not directly added to the respective data but is instead 
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given in individual and separate annotations. These then indirectly point back to 
specific entities or units in the original data or the annotated document. 

The use of these stand-off annotations for the description of multiple levels 
of information has been elaborated mostly in the context of linguistic analyses 
and the annotation of data such as face-to-face dialogue where different details of 
information have to be taken into consideration (e.g., intonation, gesture, proxim- 
ity, etc., see also Bateman et al. 2017). In this area of research, several annotation 
tools have been developed in order to annotate complex architectures and data (cf. 
Dipper 2005). 

For multimodal analyses, this has more recently been taken up and further 
developed for the annotation of static visual artefacts such as comics pages (see, 
e.g., Bateman et al. 2016; Wildfeuer 2019; Bateman et al. 2019), but, to the best 
of our knowledge, not for audio-visual artefacts such as TV series. However, as 
we have outlined in Wildfeuer (2019), by combining both more interpretative dis- 
course analytical interests with empirically-driven corpus analytical questions, it 
is essential to develop an annotation scheme that allows a multi-level annotation 
with different levels of descriptions and that at the same time can be optionally 
expanded and adopted for diverse other corpora or research questions. For our 
purposes, we therefore work with a multilevel annotation scheme that includes not 
only the description level of technical film analytical terms and units such as ‘shot’ 
and ‘event’, but also takes into consideration, on a further level of description, the 
identification of characters according to discourse analytical frameworks. We will 
elaborate further on this in the following section. 


2.1 The cohesion system network for the identification of 
characters and gender differences 


Our methodological approach to the analysis of character identities in TV series is 
based on the analytical framework of cohesion in linguistics and discourse analysis 
which has been further developed for film and comic analysis in recent years (see, 
e.g., Tseng and Bateman 2010; Tseng 2013; Tseng and Bateman 2018). Applying 
the concept of cohesion to the analysis of extracts from TV series helps identifying 
“formal features of the medium that may serve as explicit hypotheses concerning 
how readers are guided along particular paths of meaning construction as the 
[audio-]visual narrative unfolds" (Tseng and Bateman 2018, 4). These paths are 
reconstructed with the help of cohesive chains that operate within and across semi- 
otic modes and represent characters, settings, and objects and their ‘reoccurence’ 
relations by which their internal connectivity throughout the text or artefact is 
indicated (see Tseng 2013; Tseng and Bateman 2018, 4). 
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The frameworks for cohesion in filmic texts or in comics are modelled as so- 
called system networks that have been long established for language description 
within systemic-functional linguistics (SFL; see Halliday and Matthiessen 2013). 
As a functional linguistic theory, systemic-functional linguistics focusses on lan- 
guage as a ‘resource’ for meaning-making. This resource is characterized in terms 
of classificatory ‘networks of choice’ with associated structural consequences, 
called realizations. Thus, a linguistic unit receives a description by setting out the 
‘abstract semiotic choices’ that would lead to the construction, or ‘realization’, of 
the linguistic unit in question, given the network of possibilities provided by the 
relevant language. The system networks for cohesion in film or in comics similarly 
show the “functional potential for cueing identities of characters, objects, and 
settings” (Tseng and Bateman 2018, 5). 

In particular the system network for film, as provided in Tseng (2013), serves as 
a backbone for the annotation scheme developed in our project. For details of this 
framework, we refer back to the comprehensive description in Tseng’s own work 
(2013) and the applications within several example analyses (see, e.g., Tseng and 
Bateman 2012; Tseng 2013). On this basis, we present our own annotation scheme 
as a whole in Figure 1 on the facing page. The square brackets used in the figure 
represent mutually exclusive, ‘either/or’-choices, such as the decision whether a 
particular participant is a main or a minor character. Round brackets, in contrast, 
stand for ‘and’-choices and connect systems which are available simultaneously. 

As becomes visible in Figure 1 on the next page, on the highest level of choices, 
the scheme differentiates between ‘shot’ and ‘event’ as basic analytical units. 
Within ‘shot’ as analytical unit, the system network then makes available choices 
between ‘technical aspects’, such as ‘camera work’ (which includes camera dis- 
tance, movement, and perspective) and ‘sound’ on the one hand, and ‘participants’, 
that is female and male main characters, and relevant minor characters on the 
other hand. For ‘events’, ‘technical aspects’ (in this case, ‘sound’) and ‘narrative as- 
pects’, such as ‘character interaction’, ‘location’ and ‘story-time’ can be described. 
Apart from the type of character interaction, that is, visual, verbal, or visual and 
verbal interaction, the ‘interaction participants’ and the ‘initiator of interaction’ are 
also included. The participants of the interactions are described on a rather general 
level only, that is, whether they are main or minor characters and in terms of the 
gender they are identified with within the film. The same holds for the initiators of 
these interactions. 

The annotation of all participants, that is, main and minor characters and 
important objects, thus focusses on their visual, verbal, and combined visual and 
verbal presence in the beginning of the respective TV series. In doing so, a basic 
differentiation between interactional and (active and passive) non-interactional is 
drawn. A visual, verbal, or visual and verbal presence of a participant is defined 
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Fig. 1: System Network for the analysis of character identities in TV series 
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Fig. 2: left: screenshot taken from the beginning of Bones (Season 1, Episode 1, 00:08:31) 
showing an interactional process between the two actors; right: second screenshot of Bones 
(Season 1, Episode 1, 00:05:46) with arrows indicating the visual (green) and verbal (orange) 
interaction. 


as interactional when this character is visually, verbally, or visually and verbally 
interacting with another character on screen. Non-interactional visual, verbal, or 
visual and verbal presences of characters in the TV series can be further subdi- 
vided into active and passive: non-interactional active is selected when a character 
visually, verbally, or visually and verbally addresses another character without the 
addressee returning this. Non-interactional passive is opted for when the character 
who is annotated on the respective tier is visually, verbally, or visually and ver- 
bally addressed by another character. The distinction goes back to Kress and van 
Leeuwen's (2006) framework of narrative structures in visual images in which the 
authors distinguish six different narrative processes. These different types “can 
be distinguished on the basis of the kinds of vector and the number and kind of 
participants involved" (Kress and van Leeuwen 2006, 63). Vectors then connect 
actors, goals, interactors, as well as reacters and phenomena. We cannot elaborate 
further on these details, but will demonstrate the differences with the examples 
in Figure 2. According to Kress and van Leeuwen's distinctions, 'interactional 
can be explained as a so-called bidirectional transactional: two characters either 
visually, verbally, or visually and verbally interact with each other. With Kress and 
van Leeuwen, the non-interactional option is unidirectional transactional with the 
respective character either being the actor (‘active’) or the goal (‘passive’). 

The left part of Figure 2 shows a screenshot taken from the beginning of the 
series Bones which represents Dr Temperance Brennan and a male minor character, 
her boss, the director of the Jeffersonian Institute, Dr Daniel Goodman. In the scene, 
they are engaged in a face-to-face conversation which can be defined as a verbal 
and visual exchange. Their eyelines and the direction in which their words are 
uttered can be illustrated with arrows, i.e. vectors, and can therefore be described 
as a transactional process which is then defined as interactional according to our 
annotation scheme. 
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As mentioned above, the visual, verbal, and visual and verbal presences of 
the characters in the TV series are annotated for each shot. Some interactions be- 
tween characters are shown spatially disconnected or, as Kress and van Leeuwen 
(2006, 258) state, “shown in separate shots". Thus, what is described as a non- 
interactional shot can indeed be part of an interactional encounter between charac- 
ters. The description of the characters thus always focuses on what the character 
does in a particular shot. 

The right part of Figure 2 on the facing page then shows a second screenshot 
from the beginning of Bones with the two main characters. Both look at a monitor 
off screen which shows the images transmitted by an underwater camera they use 
to search for a murder victim. The eyelines of both characters are visualized with 
vectors. Agent Booth and Dr Brennan do not look at each other but are involved in 
a verbal interaction, that is, they address and react to each other while focusing 
on an object. Even though one can only illustrate the verbal exchange with vectors 
(see the orange arrows visualizing the goal of the verbal utterances in the right part 
of Figure 2 on the preceding page) and there is no visual exchange, the interaction 
is nevertheless annotated as verbal and visual interaction, since the two characters 
interact on both levels: they have a verbal conversation and a visual interaction 
in terms of looking and pointing to the same object (i.e. the camera monitor off 
screen) and the occasional look at each other. 


2.2 The ELAN annotation scheme 


As mentioned above, we use the annotation tool ELAN for the annotation of our 
TV episodes. Developed by the Max Planck Institute for Psycholinguistics (see 
Wittenburg et al. 2006; https://tla.mpi.nl/tools/tla-tools/elan/), the semi-automatic 
tool allows to set up annotation templates and apply them to different media files. 

For our annotation purposes, we transfer and adapt the system network intro- 
duced in Section 2.1 into a specific ELAN template with specific tiers to annotate the 
respective units and features. This means that both technical aspects (i.e. sound 
and camera work) as well as occurrences of participants are annotated for each 
shot of the extracts we analyse. The shot tier is thus the first highest description 
level on which the other tiers for camera work and character description are depen- 
dent. The event tier is the second highest description level and the other technical 
aspects (such as sound) and the various narrative aspects (story-time, location, 
and participant interaction) are dependent on this tier. 

Figure 3 on the following page demonstrates how the system network summa- 
rizing all relevant annotation choices is transferred to the template while keeping 
the different tier dependencies. Each tier is then tied to a so-called controlled 
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Fig. 3: Transfer of the system network into annotation tiers in ELAN 


vocabulary which provides all relevant annotation choices for this respective tier, 
i.e. the choices available in the system network (e.g. intradiegetic visual and verbal 
presence of the character in question). 

In order to be able to compare the annotations of all TV series extracts in 
the corpus in a meaningful way, the same controlled vocabulary was used for 
each extract as part of the pre-defined template which served as basis for the 
analysis. Therefore, the controlled vocabulary needs to be general enough to allow 
for greater applicability, yet specific enough to capture differences between the 
TV series, for instance. As a consequence, the multitude of possible combinations 
of visual, verbal and/or audial presence on screen leads to rather detailed and 
large entries in the controlled vocabulary. We will show example extracts from our 
annotations in Section 4 below in order to demonstrate the close interrelationships 
between the quantitative and qualitative evaluations. For all further details of the 
annotations pursued in this project as well as more comprehensive evaluations 
and critical discussions, see Drummond (2019). 


3 Data and Corpus 


Our study focuses on the introduction of main characters in the beginnings of 
ten contemporary American TV series: Each show has both a female and a male 
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Tab. 1: Corpus of crime and mystery TV series used in this project 


Crime Sci-Fi/Fantasy 
Fringe 2008-2013 Lucifer 2015- 
Bones 2005-2017 Forever 2014-2015 
Blindspot 2015- Vampire Diaries 2009-2017 
The Mentalist 2008-2015 Teen Wolf 2011-2017 
Elementary 2012- iZombie 2015- 


main character. Five TV series, Blindspot, Bones, Elementary, Fringe, and The 
Mentalist, are crime TV series; the other five shows, namely Lucifer, iZombie, Teen 
Wolf, Forever, as well as Vampire Diaries, have added supernatural elements, that 
is, either the female or male main character has a supernatural ability. For an 
overview of the series, see Table 1. 

Both crime and mystery TV series are immensely popular and widely consumed 
(cf. Winckler 2004). Thematically, they either focus on one overarching crime which 
needs to be solved throughout the season, or several crimes, for instance one or 
two crimes per episode which are dealt with within the respective episode. The 
‘supernatural elements’ in TV series are, for instance, immortality (Forever, Lucifer), 
vampires (Vampire Diaries), (fallen) angels (Lucifer), werewolves (Teen Wolf), and 
zombies (iZombie). These series can be regarded as genre-hybrids: Forever, iZombie 
and Lucifer are essentially crime series, incorporating supernatural elements in 
detective stories. Vampire Diaries and Teen Wolf address a young adult audience 
and focus on high school- and college-connected drama mysteries. Forever, iZombie 
and Lucifer appear to fall in line with many TV series which feature liaisons between 
institutions or single characters standing for law enforcement and characters which 
are somehow specially gifted. 

As the focus of the project lies on gender differences in the introduction of 
female and male main characters, we focus exclusively on the beginning of each 
series in the pilot or first episode of the first season. Generally speaking, the be- 
ginning of any film and TV series is of eminent importance: it leads the viewer 
into the narrative or storyworld and provides the tools and concepts necessary to 
understand and deconstruct the film. Main characters are an important part of the 
represented storyworld and are thus usually included into the first orientation. 

For our purposes, we define the beginning of each series as the beginning of the 
narrative and/or the beginning of mood-setting music which becomes part of the 
(extradiegetic) soundtrack of the respective episode and/or visual-verbal elements 
(often in combination with extradiegetic music) which are directly connected to 
the narrative. The end of the beginning is set when the viewer got to know the 
female and male main character both individually and together on screen involved 
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in an interaction, as well as the main story-line. For a more detailed argumentation 
for defining beginning and end of the extracts, see Drummond (2019). 


4 Examples from the annotation and analysis 


In this section, we will provide two different example analyses from our work with 
the annotation framework: (1) the examination of the beginning of Blindspot as an 
example for a crime TV series in Section 4.1 and (2) the analysis of the beginning 
of Lucifer as an example for a supernatural TV series with a supernaturally gifted 
male main character in Section 4.2. We will demonstrate how annotating the ex- 
tracts from these series helps finding out how the main characters are represented 
multimodally and which gender differences become visible. 


4.1 Extract from Blindspot 


Starring Jaimie Alexander as female main character Jane Doe and Sullivan Sta- 
pleton as male main character Kurt Weller, Blindspot focuses on the mystery of 
a woman (Jane Doe) with no memory whose naked body is covered in tattoos 
found in a bag on New York's Times Square. The beginning of the pilot episode 
of Blindspot can be separated into three main parts: Firstly, the introduction of 
Jane Doe (starting with Jane's first visual appearance at minute 1:46), then the 
introduction of Special Agent Kurt Weller and finally the scene in which Jane and 
Kurt meet face-to-face for the first time. The complete beginning of Blindspot used 
for analysis consists of 321 shots and 45 events, out of which 320 shots are anno- 
tated for technical aspects (such as camera distance, perspective, movement and 
sound) and the title sequence which was marked as one shot and not relevant for 
analysis. In total, the female main character, Jane, is present in 168 shots, the male 
main character, Kurt, is either visually, verbally or visually and verbally present 
in 155 shots of the introduction. Kurt as male main character is present without 
Jane in ten out of the 45 events into which the introduction can be divided. Jane 
appears without Kurt in eight events, while they are present together in fifteen 
events. Jane and Kurt do not interact with each other in every event in which they 
both occur, but some events present them independently from each other, for 
instance in events in which the examination of Jane is cross-cut with Kurt studying 
photographs of her tattoos. In a further three events, no major character appears 
and four events are assigned the category none. 
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Jane as female main character is initially introduced when she escapes the 
bag in which she was found, surprising the bomb squad officer who was sent to 
Times Square after the unattended bag with the luggage tag ‘Call the FBI’ had been 
found by a police officer. She is being taken into custody. The male main character 
Kurt Weller is initially shown heading a team of FBI agents who want to rescue 
women and a baby who were taken hostage by an armed man. After successfully 
concluding the rescue mission, Kurt Weller is being picked up by a helicopter and 
taken to the FBI headquarters where he is entrusted with the investigation into the 
case of Jane Doe. 

The scene when Jane is crawling out of the bag on Times Square is defined as 
the primary introduction scene of her as the female main character of Blindspot 
(01:46—02:58) and encompasses a total of fourteen shots (out of which she is 
present in thirteen). She is then somehow secondary, that is indirectly, further 
characterized and (auditorily and visually) described in the second part of Kurt's 
introduction scene as male main character. Upon having rescued the hostages and 
having returned to the FBI headquarters, Kurt and several minor characters are 
talking about Jane as the FBI investigation into Jane's identity begins. Scenes in 
which Jane is being probed and examined are cross-cut with scenes in which Kurt 
gives orders and leads this investigation. The last scene shows the first face-to-face 
meeting of Jane and Kurt. 

In the first nine shots of her introduction, Jane is only visually present as she 
crawls out of her bag on Times Square. Her state of mind (being overwhelmed and 
confused, as expressed through her facial expression and gestures), is enhanced on 
the film-technical level through frequently changing camera angles (from high to 
low) and the camera movement, for instance through zooms and rotations. Figure 4 
on the following page shows the ELAN annotation for Jane's initial introduction as 
an example. 

As can be seen in this annotation, the fifth shot, for instance, can be described 
as close middle shot, taken from a low angle, with multiple camera movements, 
an option which is selected when the camera moves with several successive move- 
ments within one shot. Here, the camera movements appear to emphasize Jane's 
physical and mental state after escaping the bag: she looks around in confusion, 
is shaking and seems to be disoriented. The whole sequence is mainly shot in 
close shots (very close [VCS], close [CS], and close medium shots [CMS]) of Jane's 
face, visually emphasizing the confusion and helplessness visible in her facial ex- 
pressions. The zooms and rotating movements of the camera also serve to present 
Jane in a very vulnerable position, that is, standing naked in front of the bomb 
squad officer in a very illuminated spot on the cleared public square. Extradiegetic 
instrumental music is present throughout the scene. When the bomb squad tech 
addresses Jane verbally in the tenth shot, an intradiegetic verbal component is 
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Fig. 4: Screenshot taken from Jane’s initial introduction (divided into two halves for space 
reasons) 
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added to the extradiegetic instrumental soundtrack. However, Jane does not reply 
but rather follows the instructions yelled at her by the bomb squad officer silently 
and visibly scared. Indeed, she hardly looks at the officer directly but seems to have 
difficulties to focus. This, too, is emphasized by the changing camera angles and 
movements. Generally speaking, the dominance of non-interactional occurrences 
is, as will be pointed out below, characteristic for Jane’s presence in the beginning 
of Blindspot. The camera perspective changes from a medium shot of the bag toa 
birds-eye view and high-angle shots, before low angles and shots, in which the 
camera takes a medium perspective, are employed. 

As mentioned above, the initial characterization of Jane emphasized by tech- 
nical resources such as camera movement, perspective and distance is also visible 
in interaction types and patterns: Nearly a third of all occurrences of Jane Doe 
in the beginning of Blindspot can be characterized as non-interactional passive 
occurrences, that is occurrences in which Jane is addressed by another participant 
but does not visually or verbally react within the same shot. A further 46% of 
Jane’s occurrences on screen are non-interactional. In 15% of all relevant shots 
Jane interacts with other participants and in only 7% of all cases Jane is involved 
in an active non-interactional interaction which means that she addresses other 
participants. The diagrams in Figure 5 visualize the results of our annotations for 
the representation types of the two characters Jane and Kurt. 

Kurt’s individual introduction scene is considerably longer than Jane’s scene 
(minute 01:56-10:44, encompassing 238 shots) and can be divided into six different 
phases. Whereas the first two phases focus on Kurt rescuing the hostages, the 
storylines of Jane and Kurt are being brought together in the third phase when 
Kurt has returned to the FBI headquarters and has been entrusted with Jane's case. 
Generally speaking, Kurt is portrayed as a strong, decisive, and well-respected 
leader both on the narrative and the technical level. His initial characterization 
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is, for instance, emphasized through the structural organization, that is, cross- 
cutting with images of the desperate hostages (whose mental state is emphasized 
on the technical level by close shots of their faces in the second and third shot 
of the introduction, for instance) in the first two phases, and sequences showing 
Jane in the last four phases. Kurt's leadership role is also reflected in the fact that 
he has the most speaking time and initiates most verbal and visual and verbal 
interactions. Jane is further introduced in the last four phases of Kurt's introduc- 
tion: Her appearances are initiated and commented on by Kurt. He decides which 
tests are done with her, analyses her tattoos and finds out that they constitute a 
complicated treasure map, for example. Jane passively endures the procedures 
(mainly non-interactional and passive non-interactional occurrences) and is thus 
presented as examination object and as opposite of the active and decisive leader 
Kurt in this respect. 

As the right diagram in Figure 5 on the preceding page shows, in total, 2396 
of Kurt's occurrences in the beginning of Blindspot can be defined as active non- 
interactional instances. In 1896 of all shots in which Kurt is present, he is involved 
in an interaction, with a further 1896 being classed as non-interactional passive 
occurrences. 4196 of occurrences are non-interactional occurrences. However, most 
of Kurt's non-interactional occurrences are different to Jane's respective presences 
and can be explained with the structural organization of Kurt's introduction se- 
quence: When he orders Jane's examinations, he often does so extradiegetically 
(e.g. in a voiceover), while Jane is present on screen. This is the case in 22 shots, 
in another 29 he is visually present, for instance during the initial case briefing 
sequence in which Kurt is introduced to Jane's case. This highlights the fact that 
the multimodal construction of the types of occurrences of a character need to be 
looked at in context. 


4.2 Extract from Lucifer 


The second example which is discussed here is the supernatural TV show Lucifer. 
Generally speaking, its structural organization is quite similar to Blindspot: Firstly, 
both main characters are introduced individually before they meet each other for 
the first time. The beginning of Lucifer starts with the introduction of the male 
main character, Lucifer Morningstar, the Devil who moved, bored from Hell, to Los 
Angeles and opened a nightclub there. The introduction of Chloe Decker as female 
main character is considerably shorter and follows Lucifer's initial introduction. 
The sequence in which both main characters meet each other for the first time 
concludes the beginning of Lucifer. 
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Lucifer's initial introduction starts with extradiegetic written text, informing 
the viewer(s) that *In the beginning, the angel Lucifer was cast out of Heaven and 
condemned to rule over Hell for all eternity. Until he decided to take a vacation...", 
thus framing everything that is about to happen and relating Lucifer Morningstar 
as film character to the biblical character Lucifer, the fallen angel. These ties are 
further emphasized by the construction “In the beginning...", which resembles the 
beginning of the biblical creation story. The point that he was cast out of Heaven 
is picked up by Lucifer during his conversation with his angel brother Amenadiel 
later in Lucifer’s introduction sequence. After the extradiegetic, white written text 
on black screen fades away, the switch to present day time is made. Figure 6 on the 
next page below shows the annotation of the beginning of Lucifer’s introduction. 

As the screenshot shows, Lucifer is first visually present in the fourth shot 
of his introduction. The song ‘Ain’t No Rest For The Wicked’ by the band Cage 
the Elephant provides the extradiegetic soundtrack. Indeed, this song is a con- 
stant throughout the first phase of Lucifer’s introduction scene: starting off as 
extradiegetic soundtrack, it changes to intradiegetic sound around minute 0:52 in 
along shot from alow angle with the camera moving from left to right. Lucifer stops 
by the side of the road and the police officer who pulled him over for speeding 
gets off his motor bike. At minute 1:00, the change from extra- to intradiegetic 
music becomes obvious when the police officer asks Lucifer to turn down his mu- 
sic, which Lucifer does. The music finally picks up again at the end of the first 
phase of Lucifer’s introduction sequence, when Lucifer tells the police officer that 
he must be on his way (around minute 2:17). It is not entirely clear whether the 
song returns as intra- or extradiegetic sound, but the volume increases gradually 
towards the end of the first phase at minute 2:34. Throughout the first phase of 
his introduction the filmic text establishes that Lucifer as male main character is 
probably wealthy, which is visualized, for instance, by the expensive car he drives. 
Even though Lucifer is being followed by an officer and can hear the police siren, 
he keeps driving (while smiling) for quite some time. This shows that he does not 
mind breaking the law (speeding) and lacks respect for the law enforcement. He is 
self-confident, a character trait shown when he ignores the officer’s first request to 
turn down the music and when he offers the bribe. Mainly two points make clear 
that Lucifer is something more than a ‘normal’ mortal human: Firstly, he tells the 
officer that “you humans love your money”, indicating that he is something else 
than human. Secondly, he can draw out people’s hidden desires, something he 
proves when he gets the officer to admit what he sometimes does illegally. Also, 
Lucifer’s number plate reads ‘FALL1N1’, the fallen one, linking back to the initial 
extradiegetic written text which introduced Lucifer as the original fallen angel, 
thus strengthening the interpretation that the character introduced in these first 


52 — Tamara Drummond and Janina Wildfeuer 


00:00:25.000 


‚Ss 1 CM, MS ‚CMS n ,MS ‚CM VLS 


medium mediu hig med medium medium _ birds-eye vi, med birds-oye v; 


combination extradiegetic (with lyrics)+intradiegetic (other sounds) 
mith lyrics — extradle ,exradi ext extr; exradiegeli combination, exiadiegell, extr; combinato, 


jreetin city 


00:00:55.000 


{CMS ‚CMS 


„low angle medium 


combination exradiegetic (wih rics)sinvadiegede(otherseunds) 
combination extradiegeti, com , combi, combination combi , combination extradieg, extr 


jreetin city 


Fig. 6: Screenshot of the annotation of the beginning of Lucifer's introduction scene (divided into 
two halves for space reasons) 
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minutes is indeed this fallen angel who guarded Hell before he decided to take a 
vacation. 

The supernatural angle is further explored in the second and third phase of 
Lucifer's introduction, when Lucifer interacts with his demon friend and his angel 
brother in his nightclub LUX. He is also portrayed as enjoying life after retiring 
from his former occupation as Devil, and appreciates with demon Mazikeen the 
irony that he, as Lord of Hell, was “copulating with a young woman named ‘Faith’”. 
In his interactions with other (minor) characters some of his supernatural abilities 
become visible, such as immortality and the ability to draw out people's hidden 
desires. Many of these interactions are initiated by Lucifer himself (active non- 
interactional 39%, interactional 32%). He is present in a non-interactional way in 
1396 of his total appearances and approached by others (passive non-interactional) 
in 1696. 

When Lucifer's former employee and now-famous singer Delilah, one of his 
interaction partners during his introduction phase, gets killed in a drive-by shoot- 
ing, Chloe's introduction scene begins. As police detective she is assigned to the 
case. Similarly to Jane Doe's initial introduction in Blindspot, the introduction of 
Chloe Decker as the female main character in Lucifer is considerably shorter than 
the one for the male main character, which is only 29 shots long (out of which 
Chloe is visually and/or audially present in 27 shots). Her initial introduction can 
be divided into two short phases: Firstly, Chloe looks around the crime scene upon 
arriving there. In the second phase, she is approached by a male minor character, 
another police detective and her former husband. Whereas Chloe is only visually 
present in the first phase, she enters, as pointed out above, a visual and verbal 
interaction with a male minor character, initiated by this character. He advises 
her that the case appears to be a drug-related shooting which will be easy to solve 
and that she should not spend too much time with it. Even though the shooting 
is Chloe's case as she herself points out, she assumes a rather passive role in the 
interaction. 

Generally speaking, Chloe's characterization in this initial introduction stays 
rather superficial in comparison with Lucifer's detailed character introduction. In 
total, as the diagram in Figure 7 on the following page demonstrates, roughly 2896 
of her appearances on screen can be defined as ‘interactional’. In a further 25% 
of all cases Chloe's presence on screen is an active non-interactional occurrence, 
while 36% are passive non-interactional cases, in which Chloe is mainly visually 
and verbally addressed by the other detective. The non-interactional instances 
(1096) are mainly set at the very beginning of Chloe's introduction, when she first 
enters the crime scene. 1% of her total occurrences are classed as ‘other’. 

Similarly to the scene in which Jane and Kurt first meet face to face in the be- 
ginning of Blindspot, the respective 43-shots-long sequence in Lucifer also portrays 
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Fig. 7: Types of occurrences of Chloe (left) and Lucifer (right) as main characters in the beginning 
of Lucifer 


a conversation between the two main characters. On the audial level, the sequence 
is divided into two parts: In the first part, sound is solely intradiegetic and mainly 
consists of verbal sounds. Starting at minute 11:26, an extradiegetic instrumental 
component is added. The focus on intradiegetic (mainly verbal) sounds in the first 
part mirrors the focus on Chloe and Lucifer achieved on the visual level through 
the employment of shots with no camera movement. Exceptions are, for instance, 
made when the camera moves up when God is mentioned and down when Lucifer 
explains that he likes to play, somehow linking back to his two sides which are ex- 
plored in his initial introduction. On the content level, this sequence picks up quite 
a few points of Lucifer’s initial introduction, such as Lucifer’s immortality and 
feeling of superiority, as well as his lack of respect towards the police (expressed 
when he calls the LAPD Chloe’s “corrupt little organization”), his sense of justice 
(e.g. emphasized when he tells Chloe that “somebody needs to be punished” for 
the shooting), as well as the importance of sex to him. Chloe, on the other hand, is 
presented as Detective who tries to be taken seriously and on a more superficial 
level, following her initial introduction. Their first interaction presents Lucifer and 
Chloe as somewhat polar opposites. 


5 Summary and results from the overall study 


Our description of the examples in Section 4 has shown the enormous potential 
of analysing several extracts from the different genres of the TV series. In the 
following, we will summarize which more general results and observations are 
possible from this analysis and in particular the detailed annotation of the whole 
corpus as described in Section 3. For more detailed evaluations of all annotations, 
see Drummond (2019). 
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Overall, the female main characters of the TV series included in the corpus 
are, in comparison to the respective male main characters, portrayed as inferior, 
subordinate and/or in need of help, for instance in terms of detective work or in 
understanding their condition better, as it is the case for the female main char- 
acter of iZombie. ‘Strong’ female characters, that is female main characters who 
are portrayed as self-confident and intelligent women within a TV show, are in 
most cases introduced with at least one male minor character. For example, for 
Chloe Decker (Lucifer), this male minor character is her ex-husband, Detective Dan 
Espinoza, who tells her that the case of the shot singer is an easy one to solve and 
that she should not spend too much time with it. Different modes are involved 
in this construction of female main characters as inferior, such as the camera 
movement and perspective used to portray Jane Doe as female main character of 
Blindspot. 

All male main characters of the analysed TV shows are portrayed as self- 
confident and in a position of power. Stefan Salvatore (Vampire Diaries), for in- 
stance, is the mysterious new student, an old vampire who used to live in the town 
the series is set in. Henry Morgan (Forever) is immortal and is, even though he 
suffers from this, introduced as a generous, successful and intelligent man. His 
suffering is presented as something heroic since he became immortal after he was 
shot at when he tried to save a slave on a slave ship a couple of hundred years 
earlier. 

The introduction of Joan Watson and Sherlock Holmes as main characters 
of Elementary is also interesting because as the female main character Joan is 
introduced without a visually present male minor character: She is sent to Sherlock 
by his father as rehabilitation advisor and is supposed to help Sherlock adjust to 
life outside the addiction clinic where he had spent the last weeks. In this role, she 
is in a position of power. However, this changes quickly when she meets Sherlock 
for the first time: Rather than guiding him, she is quickly pushed into the role of 
his assistant while he demonstrates his special skills. 

The introduction of the female main character of iZombie, Liv Moore, is divided 
into two main parts: the very beginning describes Liv's life prior to becoming a 
zombie. She is presented as a successful young doctor at a hospital, who saves 
lives, and is happily engaged to a man, who encourages her to go to a party. On 
this party, then, Liv is turned into a zombie, an event that marks the beginning 
of the second part of her introduction. Even though her supernatural ‘ability’, 
being a zombie, may be comparable in some regards to, for instance, Stefan in 
Vampire Diaries being a vampire, she is portrayed quite differently to the male 
main characters with supernatural abilities. Contrary to the self-confident woman 
she is portrayed as in her pre-zombie-life, Liv loses control over her post-zombie- 
life. The change is visualized through her outer appearance, and also through 
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extradiegetic soundtrack, interaction patterns and camera perspective, angles 
and movement. It is a male minor character, Liv's new boss, the coroner of the 
morgue where she works after becoming a zombie, who helps her come to terms 
with being different. This marks a difference to the other supernaturally gifted 
(male) main characters, who are presented as powerful and self-confident, even 
though they may be struggling with their abilities (as is the case, for instance, with 
Henry Morgan in Forever). However, none of these other main characters need 
help with understanding their abilities. In order to see whether this is the case 
for other supernaturally gifted female main characters, the corpus will have to be 
expanded respectively. 


6 Conclusion 


The aim of this chapter was to demonstrate how quantitative and qualitative as- 
pects of the multimodal analysis of TV series extracts can be brought together 
effectively in an empirical annotation and evaluation project. With both our dis- 
cussion of the theoretical and methodological requirements for precise annotation 
schemes, also on the basis of film and discourse analytical frameworks, as well as 
the description of several example annotations and evaluations, we hope to have 
shown the usability and applicability of a multilevel annotation scheme for the 
analysis of TV series. 

As mentioned above, the annotation scheme already combines technical as- 
pects, such as camera work and extra-and intradiegetic soundtrack, for instance, 
with more qualitative aspects, such as narrative details. This basic annotation 
scheme can be extended easily by adding further independent levels of descrip- 
tion, annotation and analysis, thus combining various research ideas that could 
be connected and with which even more profound results for multimodal analysis 
can be obtained. 

We think that the initial demonstration of such a project can help initiate fur- 
ther and more detailed annotation projects for the analysis of diverse multimodal 
artefacts — an issue which is of highest interest in all areas of communication 
research at the moment. 
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Walter Fanta 
Ein Schema für das Schreiben 


Musils Nachlass als Modell 


Abstract: Robert Musil's literary estate provides a huge amount of material for 
research into a ‘phenomenology of writing’. This article introduces an annotation 
system for the digital representation of the estate from the perspective of writ- 
ing. The dynamic changes of the text become visible in three different scenarios, 
corresponding with three levels of the genetic representation of the text. A) The 
*Minor (or Small-Scale) Writing Scene' on the microgenetic level, whose traces in 
the draft manuscript allow us to distinguish five stages of revision. B) The ‘Middle 
(or Medium-Scale) Writing Scene' on the mesogenetic level, taking into account 
additional manuscripts which play a role for sketching or rewriting a particular 
chapter draft. The distinction between draft and note, further differentiated into six 
types of manuscripts, is fundamental to the modelling of Musil's writing process. 
C) The ‘Major (or Large-Scale) Writing Scene’ on the macrogenetic level, i.e. the text 
versions in their chronological dimension, with 45 dated periods (1898-1942), and 
their content-based location in the complex structure of the Man without Proper- 
ties novel project, including preparatory projects, novel parts, chapter complexes 
and chapter projects. Digitally transcribed as early as the 1980s, the corpus of 
the digital estate was published in proprietary formats in 1992 and 2009, using a 
corpus-specific annotation system. Since 2016, MUSIL ONLINE, an open-access edi- 
tion based on XML/TEI, has been in preparation at the Robert Musil Institute of the 
University of Klagenfurt. The second part of the article presents its full annotation 
scheme for the three scenarios mentioned. 


Keywords: Practice Theory, Process of Writing, Modelling, Digital Edition, Markup, 
Literature, Text Genesis 


1 Das Korpus 


Der Nachlass des österreichischen Autors Robert Musil (1888-1942) bildet ei- 
nen Bestandteil des UNESCO-Weltkulturerbes, der Manuskriptbestand an der 
Osterreichischen Nationalbibliothek in Wien ist zum Dokumentenerbe (Memory 
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of the World/Gedächtnis der Menschheit) erklärt worden. „Musils Weltruhm als 
herausragender Vertreter der ósterreichischen literarischen Moderne gründet sich* 
(UNESCO 2020) - auf sein Scheitern! So und nicht anders ist die Begründung der 
Osterreichischen UNESCO-Kommission für die Aufnahme von Musils Nachlass in 
das Dokumentenerbe-Verzeichnis zu bewerten. Musil selbst schloss noch in seinen 
letzten Lebenstagen aus, einen posthumen Herausgeber in Anspruch nehmen 
zu müssen. Anlässlich der Bekanntschaft mit dem deutschen Jean-Paul-Forscher 
Eduard Berend notierte er Ende 1941 in Genf den „Einfall: Ich bin der einzige 
Dichter, der keinen Nachlaß haben wird. Wüßte nicht wie.“ (MN, H33/116) Wie 
immer das gemeint war, als er wenig später am 15. April 1942 verstarb, hinterließ 
er tatsächlich ca. 12.000 Seiten mit Manuskripten in ca. 40 Heften und 60 Mappen. 
Das Kernstück davon (ca. 7.000 Seiten) gehört zu dem Roman Der Mann ohne 
Eigenschaften (MoE), an dem Musil nach Vorarbeiten, die bis in seine Jugend zu- 
rückreichen, ab 1918 intensiver und von 1924 an beinahe ausschließlich arbeitete. 
Er gab 1930 und 1932 zwei Bücher in Druck, es gelang ihm aber nicht, das Projekt 
abzuschließen. Noch in seinen letzten Lebenstagen schrieb er daran und skizzierte 
in einem Brief an einen Förderer, wie er sich die Weiterarbeit und das Ende seines 
Romans denke, nämlich 


[...] habe ich Ihnen heute erzählen wollen, wie dieser Schlußband aussieht; was ich schon 
längst habe tun wollen. Er wird im ganzen doppelt so groß sein wie der seinerzeit vorschnell 
veröffentlichte erste Teil des zweiten Bandes und aus einer Unzahl von Ideen, die uns be- 
herrschen, weil wir keine von ihnen beherrschen, die Geschichte einer ungewöhnlichen 
Leidenschaft ableiten, deren schließlicher Zusammenbruch mit dem der Kultur übereinfällt, 
der anno 1914 bescheiden begonnen hat und sich jetzt wohl vollenden wird, [...] (MN, BKIV/12) 


Aus der allgemeinen historischen Katastrophe des zivilisatorischen Zusammen- 
bruchs und der persönlichen des Scheiterns des Romanabschlusses konstruierte 
die Editionsphilologie den Mythos von Musils Nachlass als vollkommenes Frag- 
ment, das den unfertigen Roman aufhebt. Das liest sich in der Begründung der 
UNESCO-Kommission für die Aufnahme ins Dokumentenerbe so: 


Die Manuskripte zum Romanprojekt sind mit Tagebuchaufzeichnungen, Essay-, Dramen- 
und Erzáhlprosafragmenten sowie umfangreichen wissenschaftlichen Materialsammlungen 
mittels eines Siglensystems des Autors zu einem Ganzen verwoben. Der Nachlass ist in seiner 
Gesamtheit und in seiner Ergánzung durch drei Teilnachlásse als Werk sui generis zu betrach- 
ten, als literarisch-philosophisches Laboratorium. In ihm wird das historische, soziologische, 
psychologische, philosophische und naturwissenschaftliche Wissen seiner Zeit in einem 
groß angelegten erzáhlerischen, essayistischen und aphoristischen Verarbeitungsversuch 
durch Robert Musil synthetisiert. (UNESCO 2020) 
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Warum Musil Schwierigkeiten hatte, seinen Roman abzuschließen, sei hier auf das 
Kürzeste zusammengefasst. Erstens war er nach 1933 und vollends nach 1938 sei- 
ner Publikationsmóglichkeiten beraubt und schrieb zunehmend nur mehr für die 
Schublade, für künftige Lesergenerationen. Zweitens gehórt das Umschreiben zum 
Wesen von Musils Produktionsweise, er pflegte von seinen Texten immer schon 
zahlreiche Fassungen herzustellen. Nach Wegfall des Publikationszwangs ging 
er dazu über, Kapitelentwürfe in totaler Varianz zueinander zu belassen, indem 
auch die Ausgangsversionen im Fundus für das Romanprojekt verblieben. Die 
Romanarbeit reflektierende, kommentierende und organisierende Studien- und 
Schmierblátter begleiteten die Entwürfe, wobei im Verháltnis zwischen Entwürfen 
für den Romantext und begleitendem Notizmaterial der Anteil der Notizen zuun- 
gunsten des Anteils der Entwürfe permanent anstieg. Was als paradoxer Sonderfall 
erscheint, dass das Fragment den Ruhm ausmacht, mag durch eine Verschiebung 
des Fokus zu einem modellbildenden Normalfall werden. Wenn das Interesse 
verstarkt der Dynamik der Textentstehung (Sahle 2013, 88) und dem Prozess des 
Schreibens gilt, dann wird das philosophisch-literarische Laboratorium Musils mit 
seiner äußerst komplexen Anlage und seiner Fülle von Einzelprozessen zu einer 
riesigen Halde für die Untersuchung zu einer ,Phánomenologie des Schreibens‘. 
Nicht umsonst werden auf der UNESCO-Seite über Musils Nachlass als Dokumen- 
tenerbe auch die ahnlich strukturierten Nachlásse von Ludwig Wittgenstein und 
Ingeborg Bachmann erwähnt. Doch geht es nicht bloß um Vergleiche mit den gro- 
ßen Fragmenten der philosophisch-literarischen Moderne. Es lässt sich immer vom 
Komplexen auf das Einfache schließen, Übertragungen von der Fülle und Vielfalt 
in Musils Nachlass auf die Produktivität von literarischen wie philosophischen 
Autorinnen und Autoren im Allgemeinen lassen sich ebenso wie auf die Arbeit 
von Wissenschaftlerinnen und Wissenschaftlern vornehmen, da die einfachen 
Phánomene in den komplexen eingeschlossen sind. Insgesamt zielt die Fokusver- 
schiebung von der Schrift ausgehend auf das Schreiben als kognitives Handeln: 
Das Manuskript als Zeugnis des Schreibens trágt die Spuren des Denkens. Patrick 
Sahle hat bei seiner Erórterung von Textverstándnis und Textbegriff den Grund- 
satz aufgestellt: „Es ist die Differenz von Sprechen und Dokument, die konstitutiv 
ist für den Text.“ (Sahle 2013, 32) Darf das Wort „Sprechen“ in dem Satz durch 
„Schreiben“ ersetzt werden? Wenn ja, so gilt es, die Frage zu beantworten: Welcher 
Annotation bedarf der Text des Schriftdokuments, das den Prozess bezeugt, wenn 
die Rekonstruktion, die Erforschung des Schreibens das Ziel ist? Der Diskurs um 
den richtigen Text ist längst keiner bloß der Editionsphilologie mehr, er interessiert 
alle Kulturwissenschaften. 


62 —— Walter Fanta 


2 Die Objekte 


Das zu Grunde liegende Modell stützt sich auf die Methodologie der ,critique gé- 
nétique' und sucht Erweiterungen im Bereich der Schreibprozessforschung. Die 
critique génétique‘ in der Lesart von Almuth Grésillon zielt auf die Erstellung 
eines textgenetischen Dossiers. Dieses versammelt „geschriebene, im Allgemeinen 
handschriftliche Dokumente, die, in bestimmte Zusammenhänge eingeordnet, die 
‚Urgeschichte‘ eines Texts und die sichtbare Spur eines schópferischen Prozesses 
darstellen“ (Grésillon 1999, 22). Mehr noch, definiert Grésillon das ,dossier géné- 
tique' als ,Summe der schriftlichen Dokumente, die der Genese eines bestimmten 
Schreibprojektes zugeordnet werden kann, unabhángig davon, ob diese zu einem 
vollendeten Werk geführt hat oder nicht.* (Grésillon 1999, 140) Wenn die Lokalisie- 
rung, die Datierung, die Entzifferung - d. h. die kodierte textliche Reprásentation 
der Dokumente im digitalen Format - verlangt wird, so óffnet sich die Methode 
durch die Einführung von textexternen Parametern wie Zeitlichkeit und Ortlich- 
keit zwar der Perspektive auf den Prozess hin, bewahrt aber zugleich ihre Nahe 
zum Zweck der editorischen Prásentation des Werks. Worin besteht die Differenz 
zwischen dem Schreibprojekt und dem vollendeten Werk? Gehórt aus der Perspek- 
tive des Prozesses nicht jedes Schriftzeugnis immer nur zu einem Projekt, ohne 
Verortung in einem Werk als Bezugspunkt? (Sahle 2013, 38) Musils Schreiben der 
letzten zehn Jahre oszilliert zwischen zwei Zielen, dem Schreiben für den Roman 
und dem Schreiben für den Erkenntnisgewinn. Die Struktur des Hinterlassenen, 
die Anlage der 60 Mappen und 40 Hefte, entspricht nicht der Struktur des Romans 
mit seiner Einteilung in Bücher, Teile und Kapitel. Zwar beruht das hier vorgestellte 
Schema auf dem Prinzip des textgenetischen Dossiers, doch stellt die Verortung 
der Dokumente eine besondere Herausforderung dar, wie wir noch sehen werden. 

Das Konzept der ,Schreibszene' rückt den Blick weg von der Schrift und voll- 
ends hin zum Schreiben als kognitives (und sogar soziales) Handeln. Von Rüdiger 
Campe als ein „Repertoire von Gesten und Vorkehrungen“ oder als ein „nicht- 
stabiles Ensemble von Sprache, Instrumentalität und Geste“ (Campe 2012, 270 f.) 
umschrieben, ist die Schreibszene der historische Akt des Schreibens in Raum und 
Zeit mit allen beteiligten Kórperteilen, Gesten, Geráten, Materialien, von dem sich 
im Schrift-Dokument Spuren befinden; editorisch dargestellt werden nur diese Spu- 
ren. Der Terminus changiert zwischen Innen und Außen, der symbolischen Reprä- 
sentation und dem materiellen Vorgang, womit die Dialektik zwischen Schreiben 
und Schrift angesprochen ist. Ein solcher Zugang schließt das für Musils Schreiben 
so charakteristische Innen/Außen-Verhältnis im „Schreiben als Geste des Denkens“ 
(Flusser 2012, 266 f.) nicht aus, obwohl die unscharfe, ausufernde Vorstellung von 
der Schreibszene mit ihrer Verhaftung auf Inszenierung, Medialität, Materialität — 
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den Text aus dem Blick verliert. Vor allem bleibt fraglich, ob jemand, der für sich 
schreibt, im intimen Schreibakt etwas inszeniert. Erst durch die Betrachtung der 
veróffentlichten Dokumente wird der Akt zur Szene. Für die Anwendung auf Musils 
Schreiben schwebt mir außerdem eine Ausdifferenzierung des Terminus vor. Etwas 
wie ‚die Schreibweise eines Autors‘ würde ich als ‚Große Schreibszene‘ bezeichnen, 
die im Falle Musils in seiner ‚Schlussszene‘ repräsentiert ist. Musil selbst hat seine 
gesamte Schreibapparatur mit den 60 Mappen und 40 Heften anlässlich einer Über- 
siedlung in Genf zwölf Monate vor seinem Tod inventarisiert, gemeinsam mit den 
posthumen Verzeichnissen, die die Witwe anlegte, bildet dieses Inventar den Ab- 
druck von Musils ‚Großer Schreibszene‘. Als ‚Mittlere Schreibszene‘ wäre die Ebene 
der Stufen im Gesamtprozess zu definieren. Die Stufe als Mittlere Szene erfasst 
das Zusammenspiel der einzelnen Handlungen, die der Schreibende vollbringt, 
wenn er einen Text ausformuliert. Für Musils Schreiben charakteristisch ist die 
Heranziehung von verschiedenen Manuskripttypen wie Studienblättern, Schmier- 
blättern, Rohentwürfen bei der Ausarbeitung der Kapitelentwürfe für den Roman. 
Dahinter verbirgt sich ein Zusammenwirken intuitiver, bildzentrierter rechtshemi- 
sphärischer mit regel- und begriffszentrierten linkshemisphárischen kognitiven 
Prozessen. Der Identifizierung der Stufen kommt deshalb bei der Erschließung des 
Nachlasses ganz besondere Wichtigkeit zu. Auf der untersten Ebene der ‚Kleinen 
Schreibszene‘ werden die einzelnen konkreten Schreibakte signifiziert: Wo und 
wie und mit welchem Stift in welcher Farbe führt der Schreibende zum Beispiel 
eine ganz bestimmte Korrektur in seinem Entwurfsmanuskript aus. 

Eine solcherart hierarchisierte Schreibszenen-Konzeption kann mit einem 
ebenfalls dreistufigen Modell im Bereich der textgenetischen Edition verknüpft 
werden. Es handelt sich um die Konstatierung von drei unterschiedlichen Arten 
von genetischer Varianz, um den Unterschied zwischen Mikrogenese, Mesogenese 
und Makrogenese (vgl. Nutt-Kofoth 2019). Die im Text des Entwurfsmanuskripts 
sichtbaren einzelnen Revisionsschritte fallen in den Bereich der Mikrogenese: Bei 
Musil sind dies nicht mehr als bloß fünf, nämlich Streichung, Einfügung, Umstel- 
lung, Setzung von Alternativvarianten und Autornotat. Für die Mesogenese werden 
die zusätzlichen Manuskripte in den Blick genommen, die für die Abfassung oder 
das Umschreiben eines bestimmten Kapitelentwurfs eine Rolle spielen. Elementar 
für die Modellbildung bei Musils Schreibprozess ist dabei die Unterscheidung 
zwischen Entwurf und Notiz, ausdifferenziert in sechs Manuskripttypen: auf der 
Seite der Entwürfe Rohentwurf, Kapitelfragment, Kapitelreinschrift, auf der Seite 
der Notizen Anfangsnotiz, Studienblätter, Schmierblätter. In der Kategorisierung 
ist der Grad der Textausreifung ebenso angesprochen wie die Funktion innerhalb 
des Prozesses. Die Makrogenese betrifft das gesamte jeweilige Schreibprojekt, im 
Fall Musils die Textgeschichte des MoE, die Fassungen oder Versionen des Ro- 
manprojekts in ihrer zeitlichen Dimension und in ihrer inhaltlichen Verortung 
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im Sinne einer Vorstellung vom Text als Fassung (vgl. Sahle 2013, 21). Die Datie- 
rung der Manuskripte fußt auf einer relativen Chronologie, die sich vor allem auf 
das dichte Netz intratextueller Verweise innerhalb von Musils Nachlass gründet, 
und einer absoluten Chronologie, die sich aus den Datumsangaben des Autors in 
den Manuskripten ergibt und mit der relativen zeitlichen Anordnung verknüpft 
werden kann. Der gesamte Schreibprozess Musils am MoE gliedert sich in neun 
Hauptabschnitte und insgesamt 44 Unterabschnitte, die jeweils durch eine Ande- 
rung der Schreibrichtung bestimmt und durch eine Zásur begrenzt sind. In einem 
jahrzehntelangen intensiven Erschließungsprozess konnte jede einzelne Manu- 
skriptseite einem der Datierungsabschnitte zugeordnet werden. Die inhaltliche 
Verortung gilt der Masse an Anfangsnotizen (906 Seiten), Studienblattern (2013 
Seiten) und Schmierbláttern (1683 Seiten), die mittlerweile auch allesamt entweder 
einem bestimmten Kapitel, einem Kapitelkomplex, einem Romanteil oder einem 
Vorstufenprojekt (1918-1928) zugeordnet sind. 

Ein zentraler Aspekt von Musils Schreiben betrifft die inter- und intratextuellen 
Verweise. Musil verarbeitet in einem ungewöhnlich intensiven Ausmaß Gelese- 
nes; dies kommt zugespitzt in der Devise zum Ausdruck, die aus der Phase der 
Konzeptualisierung des MoE stammt: ,,Einen Menschen ganz aus Zitaten zusam- 
mensetzen!“ (MN, H8/8) Die tiberaus wichtige Rolle des Zitierens beim Roman- 
schreiben ist als Umkodierung bezeichnet worden (vgl. Fanta 2019, 104 f.); für die 
praktische Umsetzung der Programmatik halt der Nachlass mit vier Seiten eines 
eng beschriebenen Typoskripts auf einem Kanzleidoppelblatt obenauf in der Map- 
pe Handmaterial mit „Grenzerlebnisse“ überschrieben ein fürwahr schlagendes 
Beispiel bereit (MN, MII/1/1 - siehe Abbildung 1 auf der nächsten Seite). 

Das Typoskript bietet eine Zusammenstellung von 95 Textstellen aus der An- 
thologie Ekstatische Konfessionen von Martin Buber (1909). Doch vermutlich hat 
Musil Bubers Anthologie selbst nie in der Hand gehabt, es ist vóllig evident, dass 
er die Mystiker-Zitate nicht aus ihr entnommen hat, sondern aus einer Studie von 
Karl Girgensohn mit dem Titel Der seelische Aufbau des religiösen Lebens (1921). In 
mehreren langen Abschnitten seiner Studie zitiert Girgensohn in extenso Anschau- 
ungsmaterial für seine religionspsychologischen Analysen aus Bubers Anthologie. 
Musil bediente sich für seine systematisch angelegte Grenzerlebnisse-Sammlung 
also aus dritter Hand. Auf das Vier-Seiten-Typoskript lásst sich der gesamte Mystik- 
Diskurs im MoE zurückführen. Bis zu seinem Tod 1942 beutete der Schriftsteller 
diesen Fundus aus und verstreute die Buber/Girgensohn-Mystiker-Zitate in den 
Entwürfen zu Kapiteln des Romans. Die Spuren der effizienten Verstreuungsarbeit 
lassen sich am Typoskript feststellen: Die einzelnen Textstellen sind zur operativen 
Maximierung am rechten Rand des Typskripts mit Tinte nummeriert; Zusátze geben 
das Zielgelande an, Abschnitte des Romans in den 1920er Jahren, Figuren, denen 
das Grenzerlebnis zugeordnet wird (Ulrich, Clarisse), das Kapitel in der Reinschrift, 
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Abb. 1: Robert Musil: Nachlaß. Österreichische Nationalbibliothek Wien. Literaturarchiv Signatur: 
Cod. Ser. n. 15069, Mappe ll/1, S. 1 
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in die das betreffende Zitat verschoben wird. In einem Entwurf für den zweiten 
Band von Herbst 1928 zum Beispiel steht bei der Beschreibung eines Traums der 
weiblichen Hauptfigur Agathe: ,,Ziemlich genau nach Index Girgensohn > Buber.“ 
In einer weiteren, unterstrichenen Randnotiz auf diesem Manuskript ist die Rich- 
tung der Umkodierung festgelegt: „Diesen Text weiter so verändern, wie wenn ein 
wirkliches Erlebnis beschrieben wird!* (MN, MVII/4/96) Die szientistisch anmuten- 
de Arbeitsweise kann mit Fug und Recht als das Hauptmerkmal von Musils Großer 
Schreibszene bestimmt werden; dazu gehóren die Studienblátter und das Siglen- 
system. Die Einrichtung der Apparatur, welche Musil für die publizierten und bis 
zu seinem Tod für die unveróffentlichten Romanteile benutzte, erfolgte 1919 und 
1920. Zu der Zeit war Musil Beamter der neuen österreichischen Republik; erst war 
er im Archiv des Pressedienstes im Außenministerium tätig, ab September wirkte 
er als psychologischer Fachbeirat im Heeresministerium. Bei der Vorbereitung für 
das Romanschreiben ging er in etwa so vor wie in seiner amtlichen Funktion als 
Archivar; er stellte ein Archiv seiner älteren Skizzen und der neuen Ideen und Wahr- 
nehmungen aus dem Krieg und der Nachkriegszeit zusammen. Dazu griff er auf 17 
vollgeschriebene Hefte aus der Vorkriegszeit zurück, auf drei Hefte, die er im Krieg 
geführt hatte, und sechs neue Hefte, die er nach Kriegsende angelegt hatte. Die 
Hefte sind von Adolf Frisé als Tagebücher herausgegeben worden, obwohl es sich 
nur zum geringen Teil um tagebuchartige Eintragungen handelt. Vielmehr trug 
Musil in die Hefte auch die ersten skizzenhaften Entwürfe seiner literarischen 
Projekte ein, und er nutzte sie, um die Früchte seiner Lektüren in ausgedehnten 
Exzerpten festzuhalten, wobei er oft mehrere Hefte gleichzeitig führte. Musil num- 
merierte die Hefte und begann sie für die Zwecke des Romans auszuwerten, indem 
er aus den alten Heften abschrieb, exzerpierte und die Einträge in neue Hefte 
laufend um weitere Beobachtungen und Feststellungen ergánzte. Er tat dies mit 
amtlichen ministeriellen Schreibmaschinen, auf dem Papier der beiden Ministeri- 
en, in denen er arbeitete, und gewiss auch während seiner Dienstzeit. Was Musil in 
etlichen Mappen zusammentrug, erweitert um eine umfangreiche kommentierte 
Sammlung von Zeitungsausschnitten, gleicht einer vollstándigen Anamnese der 
Epoche, die zu Kriegsende zusammengebrochen war, ihrer Kultur, ihrer sozialen 
Bedingungen und ihrer Politik. Für die Ausführung des Projekts schuf Musil eine 
Ordnung, an der er bis an sein Lebensende festhielt. Er begann die Blátter mit 
den Exzerpten, Notierungen und Skizzen zu siglieren und in großen Konvoluten 
mappenweise abzulegen. So entstand eine Mappe mit der Sigle AN (- Anfánge und 
Notizen); jedes Blatt darin erhielt eine Chiffre mit einer fortlaufenden Nummer, ins- 
gesamt existieren etwa 400 AN-Blätter. Nach demselben Muster baute Musil sein 
Ideen-, Figuren- und Situationen-Archiv in den folgenden Jahren aus. Er richtete 
Mappen mit siglierten Bláttern für bestimmte Abschnitte des noch ungeschriebe- 
nen Romans ein, für die wichtigsten Figuren und für bestimmte Stoffbereiche bzw. 
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Darstellungsabsichten. Es hatten sich in den Mappen wohl schon an die tausend 
Seiten angesammelt, als Musil sich 1921/22 erstmals an die Niederschrift eines 
Romantexts machte. Bereits in dieser Phase entstanden die ersten alphabetisch 
geordneten Register und Indices, die dem Autor helfen sollten, über das vorberei- 
tete Handlungs- und Gestaltungsmaterial zu disponieren. Diese Apparatur behielt 
Robert Musil in allen Phasen seines Romanschreibens bei. Er baute sie aus, füllte 
sie auf; im Großen und Ganzen könnte man den Genfer Nachlass von 1942 als die 
erweiterte Apparatur von 1919 betrachten. Musil behielt auch die Vorstufen des 
Unfertigen auf - allerdings nur des Unfertigen. Bloß das, was er erledigt hatte, 
schied er aus. Es gibt in seinem Nachlass keine Reinschriften, keine Druckmanu- 
skripte oder Korrekturfahnen von Texten, die er tatsáchlich publiziert hatte. Aus 
diesem Prinzip erklárt sich, weshalb Teile der Vorstufen des MoE in den Mappen 
und Heften überliefert sind: Diese Manuskripte sind nicht anders zu betrachten 
und zu bewerten als frühe Fassungen des auch spáter nicht Verwirklichten. Musil 
hatte kein Interesse daran, Entwürfe aufzubewahren, um sich oder anderen zu 
demonstrieren, was daraus geworden ist. Seine Umarbeitungen waren stets darauf 
gerichtet, Spuren zu verwischen. Wenn er etwas ánderte, so war das Alte hinfallig, 
es sei denn, es enthielt etwas, das wieder Potential für etwas Neues in sich trug. 
Das Hauptmerkmal der Entwurfsarbeit Musils besteht darin, dass er nie drauflos 
schrieb. Das komplizierte Geflecht seiner Romantextur speiste sich aus notierten 
Einfállen und stützte sich auf ausführliche konzeptionelle Gerüste, es baute au- 
ßerdem immer auf bereits vorhandenen Entwürfen auf. Deswegen verfasste Musil 
Entwurfsskizzen, in denen er Handlungsverläufe festlegte und erste, vorläufige 
Formulierungen fand, in vorentlastenden Schritten, um die Erstentwürfe spater 
Stufe für Stufe zu elaborieren. Die im Nachlass erhaltenen frühen Entwürfe von 
1919 bis 1928 dienen allesamt dem Zweck, Niederschriften erst vorzubereiten. Mit 
Manuskripten, die Musil schon für den Druck hátte abliefern wollen, dürfen sie 
nicht verwechselt werden; von solchen ist aus dem genannten Zeitabschnitt bis 
auf Spuren nichts mehr erhalten. Aus den alten Skizzen liegen zum Großteil auch 
nur die Teile vor, die dann nicht mehr in verwandelter Form in den veróffentlichten 
Roman eingegangen sind. Doch stimmen die ersten Entwürfe mit der spáteren Kon- 
zeption des Romans nicht zusammen. Die Veránderung der Konzeption ist aus der 
Unzahl von Notizen in den Heften und in den Mappen ablesbar, sigliert mit AN, AE, 
An, B, C, E, Fn, G, IE, Lusw. Das mit Siglen versehene Notizmaterial bewahrte Musil 
fast zur Gänze auf und er griff auch in der Spátphase seines Schreibens darauf zu- 
rück. In ihr nimmt der Manuskripttyp Studienblatt, der insgesamt etwa ein Drittel 
des gesamten Manuskriptbestands zum MoE ausmacht, in einem eklatanten Aus- 
maß Überhand. In der allerletzten Schreibphase an den Genfer Ersetzungsreihen 
(1940-1942) kommen auf eine Entwurfsseite ca. zehn Studien- und Schmierblátter. 
Definiert sind diese Materialien durch ihre Funktion, die Konstruktion des Texts 
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zu planen und exakt festzulegen, das bisher Erreichte zu reflektieren und zu kom- 
mentieren. Sie überziehen als Aufbaupläne und Aufbaustudien, Register, Indices, 
Ideeneinzelblátter, Studien zu Erzáhlkomplexen und Figuren, Kapitelstudien und 
Überlegungen, Fragen zur Reinschrift und Notizen zur Korrektur alles, was an Text- 
entwürfen zum Roman vorhanden ist. Dem Auge des Betrachters bieten sich die 
Blátter dieses Typs meist in klar überschaubarem Aufbau mit deutlichen, arabisch, 
rómisch oder alphabetisch nummerierten Gliederungsstufen dar. Auffallend ist der 
zunehmend hohe Anteil an „Rekapitulation“ (allein dieses Wort kommt im Korpus 
ca. 400 Mal vor) des bisher Geschriebenen und Veróffentlichten. Musil geht in den 
Studienblattern immer stárker dazu über, sich selbst zu zitieren und die Selbst- 
zitate kritisch zu kommentieren. Als Abstrakta und Metatexte des Entwurfs als 
vermeintlichem Haupttext drángen sie diesen nicht nur an Umfang zurück; in der 
Fülle und Dichte der Prodispositionen, Konterkonstruktionen und gedanklichen 
Abstraktionen scheint der Metatext den Haupttext fórmlich aufzulósen und wie 
Metastasen zu überlagern und zu überwuchern. Er überzieht ihn mit einem immer 
dichter werdenden Netz von siglierten Querverweisen (in der Spátzeit finden sich 
im Durchschnitt mehr als zwanzig Querverweise auf einem Studienblatt), was zu 
Láhmung und Stillstand führte. 


3 Die Annotation 


Die Frage stellt sich: Wie kónnen die beschriebenen komplexen Elemente ausge- 
zeichnet werden, d. h. wie kónnen die Informationen zum Text, die den Schreib- 
prozess betreffen, in die digitale Repräsentation des Texts integriert werden, und 
zwar in einer von einer Darstellungsform unabhángigen, allgemein lesbaren Form? 
Annotation als Kodierung der Information zum Text, mit dem Ziel, die Textdy- 
namik, d. h. die Veránderung des Texts in der Zeit zu erfassen, war schon in der 
prádigitalen Periode des Edierens von Texten ein vieldiskutiertes Problem. Schon 
in der Spátzeit der Buchedition verschob sich der Fokus vom tradierten Modell 
der historisch-kritischen Ausgabe mit ihren komplizierten Apparaten zu den ver- 
einfachten Prásentationsformen der Faksimile-Edition, dem verstárkten Interesse 
für das Fragment und der Zuwendung zu textgenetischen Fragenstellungen in der 
Forschung entsprechend. Musils Nachlass zum MoE wurde in der prádigitalen Zeit 
zwei Mal, námlich 1952 in einer Leseausgabe und 1978 in einer Studienausgabe 
herausgegeben. 1974-1980 erfolgte die Erstellung einer Nachlass-Dokumentation, 
d. h. eines umfassenden Katalogs mit Informationen zur Textentstehung, bereits 
mit EDV-Unterstützung. Die Transkription des Nachlasses wurde 1984-1990 am 
Computer vorgenommen und 1992 in elektronischer Form veróffentlicht. Damit 
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steht die Musil-Edition, historisch betrachtet, bemerkenswerterweise genau am 
Schnittpunkt zwischen analogem und digitalem Edieren; alle Debatten über Stan- 
dards digitaler Editionen lassen sich an der bisherigen Editionsgeschichte des 
Musil-Nachlasses ablesen. Dabei fallt auf, dass die Musil-Edition in mancherlei 
Beziehung die Rolle einer Vorreiterin übernehmen konnte, in anderen Hinsichten 
aber nachhinkte, indem sie etablierte Standards erst verspätet übernahm. Mógli- 
cherweise wird sie bei der Einführung eines Annotationsschemas für das Schreiben 
im digitalen Medium wieder voranpreschen. Jedenfalls hat sie die Wende vom pro- 
zeduralen zum deskriptiven Markup (Sahle 2013, 133 ff.) schon früh vollzogen, sie 
war im Grunde von Anfang an letzterem verpflichtet. 

Die Nachlass-CD-ROM von 1992 hielt für die mikrogenetische Annotation diakri- 
tische Zeichen und Erláuterungen in Form von Anmerkungen im digitalen Korpus 
der Transkription bereit. Für den meso- bzw. makrogenetischen Bereich wurde der 
Nachlass-Katalog 1980 von Aspetsberger/Castex in Form von Datensätzen über- 
nommen. Publiziert wurden die Daten in zweierlei Formaten: dem damals weit 
verbreiteten proprietären WC-View und der handgestrickten Entwicklung PEP der 
Universitát Klagenfurt. Der Katalog mit makro-/mesogenetischen Angaben ging 
in die PEP-Seitendokumentation ein, die WC-View-Version verzeichnete bloß in 
kursorischer Weise Informationen zur Textgenese. Beide Formate waren bereits 
ab 1995 durch den Betriebssystemwechsel von DOS zu Windows auf den meisten 
Computern nicht mehr recht lesbar. Die Daten wurden für die hypertextuelle Dar- 
stellungsoberfláche von FolioViews migriert und in diesem wiederum proprietáren 
Format 2009 neuerlich publiziert, diesmal auf DVD-ROM, in der so genannten 
Klagenfurter Ausgabe (KA). Für diese war die Seitendokumentation unter Ein- 
beziehung der mittlerweile erfolgten meso-/makrogenetischen Feinerschließung 
ausgebaut worden, die Transkription wurde übernommen, unter Beibehaltung 
der Diakritika und der Anmerkungen als sogenannte Popups. Die zweite wich- 
tige Erweiterung neben der Vervollständigung der Erschließungsdaten bestand 
im Versuch, das intra- und intertextuelle Referenzsystem Musils ansatzweise als 
Hypertext darzustellen. 

In der folgenden Tabelle 1 auf der náchsten Seite ist zusammengefasst, mit wel- 
chen diakritischen Zeichen die mikrogenetische Annotation in der Transkription 
der KA operiert. 

Es steht völlig außer Streit, dass die Kodierung für eine interoperable Nach- 
nutzung nicht geeignet ist. Sie ist als Insellósung für die speziellen Erfordernisse 
einer Reprásentation der handschriftlichen Texte Musils in der digitalen Steinzeit 
entstanden. Ihre Schwachpunkte zeigen sich allein darin, dass ein Teil der Codes - 
nämlich # \ | * ° ' - zum Inventar der Zeichen gehört, die Musil selbst verwendet 
hat, und dass einige andere im Falle eines Formatwechsels kaum transportiert 
werden können. Außerdem bietet die Transkription keine zeilenidente Wiedergabe, 
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Tab. 1: Diakritika der KA 


Code Bezeichnung der Funktion 
LA: Streichung 

\...| Einfügung 

B... Randbemerkung 

W...|B Einfügung vom Rand 

p Alternativ-Variante 

supe Eingefügte Alternativvariante 


B\*.. | Eingefügte Alternativ-Variante vom Rand 
S-S NJI Umstellung 
9 Platzhalter: óffnet Anmerkung 


9548 Textumgrenzung 
E Unterführung 
CD Anschluss 
?X...X fragliche Lesung 


X XX XXX Zeichen, Wortteil, Wort unleserlich 


Tab. 2: Kapitelgenese 


Nr Pagina Sigle/Inhalt Datierung Textstufe 

7  1/1/163-165 Frühspaziergang Mitte 1934-Aug. 1935 Stud-bl 
V/4/198-201 (Neufassg.) Stud-bl/Entw 

U4-4; Frühspaziergang 
(51) 

8 V/4/203-205 U4-4 Beilage 1 Aug. 1935-Nov. 1935 Stud-bl/Schm-bl 
V/4/208-215  U4-4 Beilage 2-3 Entw Schm-bl 
V/4/206-207 U4-4 Beilage 1’ 

9 11/2/8-9 NR 28 Nov. 1935- Juni 1936 Stud-bl 
V/4/218-221 U6-2.1 1-4 April-Juni 1936 Stud-bl/Entw 
11/1/90 U6-2.15 April-Juni 1936 Schm-bl 


V/4/216-217 U6-2.1 6-7 


bezüglich der Topographie und der Materialität (Schreiberhand, etc.) der Doku- 
mente verhält sie sich widersprüchlich bzw. inkonsequent. Rückblickend stellt 
sich die (selbst-)kritische Frage, weshalb nicht von Anfang an oder wenigstens 
vor den mehrfachen Migrationen schon der Anschluss an formatunabhängige, 
interoperable Transkriptionssysteme gesucht wurde. 

Um einen Eindruck zu gewáhrleisten, in welcher Weise die mesogenetischen 
Beziehungen zwischen den Manuskripten in der KA dargestellt werden, wird in 
Tabelle 2 als Beispiel ein Ausschnitt aus einer Tabelle im Bereich der Kapitelkom- 
mentare zu dem Kapitelprojekt Frühspaziergang wiedergegeben. 
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Die Tabelle erfüllt die Funktion, das synchrone und diachrone Zusammenspiel 
der Manuskripte zu demonstrieren, die Musil bei der Arbeit am Kapitelentwurf 
verwendete. Es wird das Aufeinanderfolgen der Entwurfsschritte ebenso sichtbar 
wie die gleichzeitige Verwendung bestimmter Studienblátter und Schmierblät- 
ter bei der Entwurfsarbeit. Deutlich wird auch, dass sich die dem Kapitelprojekt 
zugehörigen Manuskripte in verschiedenen Mappen befinden, dort jeweils mit 
Entwürfen, Studienblättern und Schmierblättern zu anderen Kapitelprojekten 
desselben Kapitelkomplexes. Die Nummerierungen in der ersten Spalte und die 
Pagina-Angaben in der zweiten Spalte sind mit der Transkription der betreffenden 
Manuskriptseiten und mit den Metadaten in der Seitendokumentation verlinkt. 
Auf diese Weise fungiert die Tabelle wie eine Art Relais zwischen der Ordnung 
des Romans und der Ordnung der Mappen und Hefte. Es stellt sich die Frage nach 
einer adäquaten Kodierung für diese Beziehungen unabhängig von FolioViews in 
einer nicht-proprietären, allgemein zugänglichen Umgebung. 

In ähnlicher Weise wie die Tabellen im Kapitelkommentar enthalten die Daten- 
sätze der Seitendokumentation in der KA relevante Metadaten, aus deren Gesamt- 
heit sich die Makrogenese des MoE rekonstruieren ließe. Die folgende Tabelle 3 
auf der nächsten Seite vermittelt an Hand einer beliebigen Manuskriptseite — ein 
Schmierblatt des Kapitelprojekts „Frühspaziergang“ mit der Musilschen Seitensig- 
le U6-2.1 S. 6- eine exemplarische Ansicht von der Struktur dieser Datensätze 
(MN, MV/4/216 - siehe Abbildung 2 auf Seite 73). 

Die Einsicht, dass der Nachlass mit standardisiertem Markup open-access 
publiziert werden müsse, setzte sich beim Herausgeber bereits zur Zeit der DVD- 
Veröffentlichung durch. Doch stellten sich der Übersetzung zwei große Hinder- 
nisse in den Weg. Erstens weist die digitale Reprásentation des Textkorpus ei- 
ne Menge von Inkonsequenzen, Fehlern und Deformierungen durch die Anpas- 
sungszwänge der bisher verwendeten Formate auf, so dass eine einfache Migrati- 
on der Daten nicht zu leisten ist. Zweitens existieren noch keine ausreichenden 
Markup-Standards für komplexe meso- und makrogenetische Strukturen, wie sie 
der Musil-Nachlass bietet, ja, mehr noch: es gibt noch kein Annotationsverfahren 
für die Spuren des Schreibens in den digitalen Reprásentationen von Manuskript- 
korpora. Als Grund für das Zógern darf wohl ins Treffen geführt werden, dass 
mit der Entscheidung für ein allgemeines Transkriptionssystem auf der Basis ei- 
nes intentionalen Codes (vgl. Sahle 2013, 334 ff.) im Fall des Musil-Korpus eine 
verspátete Recodierung einer Recodierung eingeleitet wird. Dies und die inzwi- 
schen eingetretene Kritik am Standard-Modell (vgl. Sahle 2013, 352 ff.) haben eine 
gewisse Befangenheit bei der Entscheidungsfindung erzeugt. Am Robert-Musil- 
Institut/Kärntner Literaturarchiv an der Alpen-Adria-Universität Klagenfurt (RMI), 
schon seit 1999 die zentrale Forschungseinrichtung für die Musil-Edition, wurde 
nach einem langwierigen Findungsprozess erst 2018 die endgültige Entscheidung 
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Tab. 3: Datensatz der KA-Seitendokumentation 


Feldname 


Pagina 


Sigle 


Schreiber 


Hauptbeschriftung 
Nebenbeschriftung 


Textstufe 


Papier 
Art 


Format 


Datierungsabschnitt 


Datumsangabe 


Textgruppe 
Werk/Titel 
Werkteil/MoE 


Kapitelkomplex 


Kapitelprojekt 


Zusatzfeld 


Feldinhalt 


V/4/216 


U6-2.1 6 


Musil, Robert 


Tinte schwarz 
Bleistift Rotstift 
Notiz Typ 3 


cremefarben 

Kanzleiblatt 

210x340 

7-6: November 1935-Juni 1936 


1936-04-06 


Band 3 
Der Mann ohne Eigenschaften 
Fortsetzung 1933-1936 


Clarisse 


Frühspaziergang 9 


Fortsetzung von II/1/90; 
Datierungshinweis 11/1/89, 
Z. 85-86 


Erláuterung 


Mappengruppe, Mappe und Seite 
nach der Paginierung von Kaiser 
und Wilkins 


Die Sigle befindet sich nicht auf der 
Seite, sie wurde erschlossen 


Neben dem Autor gibt es noch seine 
Frau/Witwe und diverse Nachlass- 
bearbeiter 


Die Schreiberhandwechsel sind in 
der Transkription verzeichnet 


entspricht dem Feldnamen „Ma- 
nuskripttyp“ und dem Feldinhalt 
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Abb. 2: Robert Musil: Nachlaß. Österreichische Nationalbibliothek Wien. Literaturarchiv Signatur: 


Cod. Ser. n. 15091, Mappe V/4, S. 216 
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zugunsten von XML/TEI als Zielformat getroffen. Die Nachteile des TEI-Standards 
liegen in der XML-Baumstruktur, in der Unmóglichkeit, Metadaten nach der Logik 
von relationalen Datenbanken zu strukturieren, in der Uneindeutigkeit der TEI- 
Markups und im Fehlen eines eigenen textgenetischen Moduls. Die Entscheidung, 
den Musil-Nachlass dennoch nach XML/TEI zu migrieren, gründet sich auf zwei 
simple Einsichten: 1. TEI ist der Standard, der sich durchgesetzt hat (vgl. Sahle 
2013, 341). 2. TEI ist erweiterbar, ein „weicher Standard“ (Sahle 2013, 369). In Ko- 
operation mit der Firma Pagina, einer IT-Dienstleisterin in Tübingen, die sich auf 
Services im Bereich der Digital Humanities spezialisiert hat, wurde 2019 mit der 
Datenmigration begonnen, die 2020 abgeschlossen werden soll. Die Migration 
verláuft in zwei Schritten: Im ersten Schritt werden die Diakritika der Transkrip- 
tionen, die Feldinhalte der Seitendokumentation und die Formatierungscodes 
aus dem FolioViews-Flatfile in XML/TEI-Dokumente transportiert, deren Annota- 
tionen zwar formal der TEI-Konvention entsprechen, tatsáchlich aber ist dieses 
Zwischenergebnis nicht mehr als eine Spiegelung der Strukturen des Ausgangs- 
formats. In einem zweiten Schritt auf XML/TEI-Ebene findet die Transformation 
in ein kompaktes Annotationssystem statt, am Ende des Prozesses steht eine Ko- 
difizierung in Form eines DTD-Schemas für die Elemente, Attribute und Werte in 
den einzelnen XML/TEI-Dokumenten und für eine dokumentübergreifende Ge- 
samtarchitektur (vgl. Sahle 2013, 105). In den folgenden Abschnitten wird das 
Schema möglichst vollständig dargestellt, mit dem Ziel, damit eine Debatte über 
Annotationsverfahren für die Spuren des Schreibens zu eróffnen. 


4 Die Annotation der Kleinen Szene 


Vorauszuschicken ist, dass die Architektur folgende Ebenen vorsieht: 1. Die Tran- 
skription mit den im Manuskript sichtbaren Schreibspuren befindet sich im «body» 
von XML-Dokumenten. 2. Die Diskretion der einzelnen Manuskriptseite als kleins- 
ter relevanter Einheit in der Struktur des Musil-Nachlasses erfolgt dort durch das 
Element «pb/». 3. Die Metadaten der Erschließung, das sind die Informationen 
der Seitendokumentation, sind im «tei -header? abgelegt. 4. Für jede Mappe bzw. 
jedes Heft ist jeweils ein XML-Dokument vorgesehen. Das Dokument, die zentra- 
le Kategorie des Edierens, erscheint in diesem Modell zweimal, nämlich einmal 
als physisches Objekt in der analogen Welt (= die einzelne Manuskriptseite) und 
einmal als digitales Dokument (= Reprásentation der Mappe bzw. des Heftes). 
Der Prozess auf der mikrogenetischen Ebene spiegelt sich als Textrevision auf 
der einzelnen Seite des Entwurfsmanuskripts. Korrekturen Musils bei der Entwurfs- 
arbeit manifestieren sich als Streichungen und als Einfügungen, für die die TEI die 
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Elemente <del> und «add»? bereit hält. Auf das Element «subst» für die Ersetzung 
wird verzichtet, da ein Ersetzungsvorgang als syntaktische Zusammenführung von 
Tilgung und Hinzufügung in der Transkription nicht eindeutig feststellbar ist. In- 
dem die Transkription diplomatisch verfáhrt, d. h. wiedergibt, was im Dokument zu 
sehen ist, verzichtet die Annotation auf die Interpretation, d. h. die Bestimmung der 
Funktion einer Schreibspur für den Prozess, zumindest dort, wo sie nicht feststeht. 
In den Kapitelentwürfen Musils zeigen sich häufig exzessive Tilgungsvorgänge, 
es kommt zu Streichungen größerer Textabschnitte, nicht selten werden auch 
ganze Seiten gestrichen. Die Hierarchie der Streichungsprozeduren innerhalb der 
mikrogenetischen Ebene wird mit einem nummerierten Attributwert "level" an- 
gegeben, nach dem Muster «del status-"level 1"», «del status-"level 2"»5, 
usw; entsprechend sind auch die Einfügungen hierarchisiert. Für den Fall von Über- 
lappungen ist die Zuhilfenahme der leeren Elemente «delSpan/» bzw. «addSpan/» 
vorgesehen. Die Ersetzungen größerer gestrichener Textblócke nimmt Musil hau- 
fig auf weiteren, von ihm in der Regel als Beiblatt bezeichneten Seiten vor, an 
den Rand neben dem gestrichenen Block setzt er ein Verweiszeichen, in dessen 
Gestalt und Farbe die Streichung nachgebildet ist und das auf dem Beiblatt 
mit dem ersetzenden Text wiederkehrt. Für die Annotation dieses Sachverhalts 
verwenden wir das Element «metamark». Die Verknüpfung geschieht auf fol- 
gende Weise: «metamark function="reference” xml:id-"T 0107025-1"/» .. 
«metamark function-"reference" corresp="#T_0107025-1"/> (Faksimile des 
Beispiels siehe Abbildung 3 auf der nächsten Seite). 

Drei weitere Schreibakte komplettieren Musils kleine Schreibszene: Bei der 
Umstellung wird das Element «seg» für die Markierung des Textbereiches ver- 
wendet und das Element «metamark» gegebenenfalls für die Verzeichnung von 
Umstellungssignalen, was folgende Annotationslogik ergibt: «seg rend-"before" 
type-"transposition" xml:id-"T xxxxxxx-n'» .. «/seg» .. «seg rend-"after" 
type-"transposition" corresp="#T_xxxxxxx-n">...</seg> «metamark function 
="reference” place-"margin"» .. </metamark>. Auch die Annotation der für 
Musils Hang zur Unentschiedenheit typische Setzung von Alternativvarianten 
erfolgt mittels «seg»; wenn sich z. B. zu einer Phrase xxx im Haupttext am Rand die 
nicht als Korrektur realisierten alernativen Phrasen yyy und zzz finden, wird dies 
SO kodiert: «seg type="variant">xxx</seg> .. «add place-"variant"»«seg 
type-"variant"»yyy«/seg» «seg type="variant">zzz</seg></add>. Für nicht 
zum Entwurfstext gehórende Randbemerkungen (schreibtechnische Anmerkun- 
gen, Kommentare, Reflexionen) wird «note place-"margin" resp-"author"» 
verwendet. 

Bei allen fünf Schreibakten kommen unterschiedliche Schreibgeráte zum 
Einsatz. Von den Sofortkorrekturen abgesehen sind alle anderen Spuren des 
Schreibens auf den einzelnen Entwurfsseiten Textrevisionen im Dienste von 
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Abb. 3: Robert Musil: Nachlaß. Österreichische Nationalbibliothek Wien. Literaturarchiv Signatur: 
Cod. Ser. n. 15067, Mappe 1/7, S. 25 
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Musils permanentem Umschreiben. Sie bereiten neue Entwürfe vor, von ihm 
als Reinschriften bezeichnet, die durch neuerliche Revisionen aber zu bloßen 
Vorlagen für weitere Fassungen herabsinken. Das Umschreiben von Entwürfen 
manifestiert sich in der Verwendung von Schreibmaterial, das von der Grund- 
schicht des Entwurfs abweichend mit dem der spáteren Fassung übereinstimmt. 
Zum Beispiel sind Eingriffe mit schwarzer Tinte in frühen Typoskripten aus den 
1920er Jahren so zu bewerten, die Musil in den 1930er Jahren eben mit der Feder 
umgeschrieben hat. Die Kapitelfragmente der Spätzeit weisen zahlreiche mit 
unterschiedlichen Farbstiften vorgenommene Streichungen und Hervorhebungen 
auf. Der Autor verwendete sie zur besseren Orientierung bei seinen kompli- 
zierten Korrekturen. Für die Annotation der Schreibmaterialverwendung kann 
in keinem Fall das sonst gebräuchliche Element «handShift/» herangezogen 
werden, das zu annotierende Phánomen ist nicht ein Wechsel der Schreiber- 
hand, sondern ihr Hinzukommen im zeitlichen Abstand von der Entstehung 
der Grundschicht, deren Schreiberhand auf einer übergeordneten Ebene - im 
<tei-Header> unter <msDesc> «msPart» bei der Zuordnung der Manuskripttype 
(siehe unten) - verzeichnet ist. Daher gelangt in den Elementen «del», «add», 
«note» und «seg», welche die Korrekturschicht markieren, der Attributwert @hand 
zum Einsatz, bei <metamark> ist @hand nicht zulássig, da erfolgt das Markup mit 
@rend. Als Attributwert wird ein Kürzel für die jeweilige Schreiberhand zuge- 
ordnet, das im <tei-Header> im Bereich <profileDesc><handNotes> aufgelóst 
wird, z. B. «seg hand="#hn_1"/> im «body» mit «handNote medium="pencil” 
xml: id="hn_1">Bleistift</handNote> im <tei-Header>. Für die möglichst ex- 
akte Beschreibung des Zeicheninstrumentariums von Musils Revisionen fin- 
det das Attribut @rendition Verwendung, die Kürzel der Attributwerte sind 
im «tei-Header» im Bereich «encodingDesc»«tagsDecl» aufgelöst, z.B. «seg 
type-"hi" rendition="#r_7"/> als <rendition xml:id="r_7">geschweifte 
Klammer rechts</rendition>. 

Um das Modell kompakter zu gestalten, wáre es sinnvoll, eine Typisierung 
der Schreibakte vorzunehmen, indem zugehórige Elemente und Attribute in einer 
hierarchischen Ordnung in Klassen zusammengefasst werden. Die Anregung dazu 
geht von einem Modell aus, das Clausen und Klug (2019, 144-149) an Hand von 
mittelalterlichen Codices entwickelt haben. Übertragen auf das Schema für das 
Schreiben von Musil wáre eine vierstufige Hierarchie zu definieren: Schreibakte/ 
Elemente/Attribute/Attributwerte. Für die Annotationen auf jeder Ebene würde 
eine vereinfachte Form definiert werden. Aus den Kombinationen innerhalb einer 
Zeichenkette würden unterschiedliche Typen von Revisionsakten identifiziert wer- 
den kónnen, wertvoll für die entsprechende Prásentation auf der Schnittstelle und 
für maschinelle Nachnutzung zu Analysezwecken. Eine solche Kette ware z. B.: 
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TRA. NUM. MAR. INK für eine Umstellung, die Musil durch Nummerierung am Rand 
vornahm. 


5 Die Annotation der Mittleren Szene 


Die Schreibakte der Mittleren Szene auf der mesogenetischen Ebene manifestieren 
sich in Spuren weiterer Manuskripte auf der einzelnen Entwurfsseite. Es gilt, die 
im Entwurf referenzierten Manuskripte zu identifizieren, eine Annotation für deren 
Textgestalt zu finden, sofern es sich nicht um Entwürfe, sondern um Notizen han- 
delt, und das Referenznetz zu beschreiben. Die angesprochenen seitenbezogenen 
Metadaten für das Zusammenspiel mehrerer Manuskripte im Schreibprozess sind 
in drei miteinander verknüpften Bereichen abgelegt, a) im <tei-Header> unter 
<msPart>, b) im <body> in der Umgebung des Elements «pb» und durch die Annota- 
tion der Verweissiglen mit dem Element <ref>, c) in einem zusätzlichen Dokument 
tgd.xml in einer Tabelle, welche die Stufen des Entwurfsprozesses darstellt. 

Ad a) In «msPart» finden sich alle Informationen aus den Datenfeldern der 
KA in Tabelle 3 auf Seite 72 in TEI-Kodierung wieder. Auf sie alle kann hier nicht 
eingegangen werden, für die Mesogenese ist nur die Identifizierung der Seiten und 
des Manuskripttyps relevant. Für die Seiten sind drei Nomenklaturen vorhanden, 
die aktuelle ÓNB-Sigle, die herkómmliche sogenannte Kaiser/Wilkins-Sigle, nach 
dem Philologen-Ehepaar benannt, das in den 1950er und 1960er Jahren für die 
Erschließung verantwortlich war, und die Musilsche Seitensigle. Die Identifizierung 
erfolgt auf folgende Weise (Beispiel: Mappe V/6, S. 14): 


Listing 1: 
<msPart xml:id-"sn15093-05-06-014-40"» 
<msIdentifier> 
<idno type-"MO"»sn15093-05-06-014-40«/idno» 
<altIdentifier> 
<idno xml:id-"k2 r48 6" type="page-sigla”>(48. Nächsten) 6</idno> 
</altIdentifier> 
<altIdentifier> 
<idno type="KWS”>V/6/14</idno> 
</altIdentifier> 

0 </msIdentifier> 


— Oo WON ODO PW2DND[-—- 
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Beachtung verdient Z. 5. Der Textknoten gibt die von Musil am Seitenanfang ver- 
wendete Siglierung an, den in der xml:id verzeichneten Attributwert in typisierter 
Form. Aufgelóst bedeutet die Sigle: Reinschrift des Kapitelentwurfs Nr. 48 in der 
Fortsetzung des Zweiten Buchs mit dem Titel Liebe deinen náchsten wie dich selbst, 
Seite 6. Damit hángt ein weiterer, im Element «msItem» gegebener Identifikator 
zusammen: 


Listing 2: 


«filiation type-"step" corresp-"4/moe3 3ge lie 3"5Stufe 3</filiation> 


Diese Annotation besagt, dass es sich um die dritte Stufe der Entwurfsarbeit Musils 
an diesem Kapitel handelt. Mit dem Attribut @corresp wird auf die Tabelle im 
Dokument tgd. xml verwiesen, wo sich der Identifikator und alle nötigen Auflö- 
sungen und Erläuterungen des Attributwerts befinden. Die Zuordnung der Seite 
zu einem Manuskripttyp schließlich befindet sich gemeinsam mit der Angabe 
der Schreiberhand der Grundschicht (siehe oben) am Ende der Eintráge unter 
<msPart>: 


Listing 3: 

<physDesc> 

<objectDesc> 

<layoutDesc> 

«layout style-"black ink"» 

<idno type-"mst" n="draft_final”>Entwurfsreinschrift</idno> 
schwarze Tinte</layout> 

</layoutDesc> 

</objectDesc> 

8  «/physDesc» 


oa AU N= 


N OQ 


Ad b) Im Textkörper der Transkription wird auf diese Metadaten bei der Annotati- 
on des Anfangs der Entwurfsseite verwiesen. Im Fall der Beispielseite sieht dies 
folgendermaßen aus: 


Listing 4: 

1 «pb corresp=”#sn15093-05-06-014-40” facs="+Z151824105/00000017. 
Jpg"/7 

2 «fw type-"ps" n-"£k2 r48 6"»(«hi rend-"underline"»48«/hi». 
Nächsten ..) «seg rend-"right"56.«/seg»«/fw» 
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Im Element «pb/» ist mit dem Attributwert von @corresp die ONB-Sigle und von 
@facs der Identifikator der entsprechenden Bilddatei im Repositorium der ONB 
angegeben. Das Element «fw» dient zur Annotation der Musilschen Seitensiglen, 
die typisierte Form als Attributwert, die transkribierte Form als Textknoten. Wo 
immer im Korpus ein Verweis auf die Sigle existiert, ist er mit dem Element <ref> 
ausgezeichnet, z. B. so: 


Listing 5: 
1 «ref target- "4sn15093-05-06-017-40"» 
2  «idno type-"ps" n="#k2_r48_9">48 9!</idno></ref> 


Maßgeblich für die Mittlere Szene ist, dass der Schreibende bei der Entwurfsarbeit 
auf Manuskripte anderen Typs zugreift, auf Studienblatter und Schmierblatter. 
Die Spuren des Zugreifens zeigen sich, indem der Text des einen Manuskripts im 
anderen vertreten ist, in einer jeweils anderen, für den Manuskripttyp charakteris- 
tischen Anordnung. Man kónnte sagen, drei verschiedene Container werden in den 
Schreibakten mit einer Schnittmenge an identischem Text befüllt, in jeweils unter- 
schiedlicher Inszenierung. Darum kommt es für die Annotation der Mittleren Szene 
in der digitalen Reprásentation darauf an, für die jeweils typen-entsprechende 
ráumliche Verortung die passenden Elemente zu finden. 

In den Kapitelentwürfen ist der Text in Absátze gegliedert, die mit «p» ausge- 
zeichnet sind. Die Überschrift am Anfang steht in einem <head>-Element, z. B.: 


listing 6: 
1 «head type-"chapter-project" n="47"> 
2 «hi rend=”underline”>47.</hi> Wandel unter Menschen.</head> 


Die Kapitelentwürfe umfassen in der Regel ca. 10 bis 20 meist nummerierte Seiten, 
auf Kanzleibláttern zweiseitig und Kanzlei-Doppelbláttern vierseitig beschrieben; 
die Annotation des Seitenwechsels erfolgt mit dem oben beschriebenen leeren 
Element «pb/». Die einzelnen Kapitelentwürfe bilden Kleinkonvolute, mehrere 
Kapitelentwürfe zusammen oder Entwurfskonvolute mit zugehórigen Studien- und 
Schmierbláttern bilden Großkonvolute innerhalb der Mappen. Für die Annotation 
der Konvolut-Grenzen bietet sich das Element «div» an. 

Das Hauptcharakteristikum der Studienblatter ist die Gliederung in Textblócke, 
die Exzerpte, Rekapitulationen, konzeptionellen Überlegungen und Anmerkungen 
zur Entwurfsarbeit sind auf großformatigen Blättern in Kolumnen und in Form 
von Listen angeordnet. Für die Annotation der jeweiligen Begrenzungen steht das 
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Element «ab»? zur Verfügung, von den TEI-Guidelines als „anonymous block“ zur 
Kennzeichnung von Textteilen in Analogie zu Absátzen vorgesehen; weiters «cb/» 
zur Markierung von Spalten, «list» «item» für Listeneinträge sowie «label» für 
Textsegmente, die der Beschriftung dienen. Die Textblócke sind sehr háufig (farb- 
lich) markiert und mit Linien, Pfeilen und dergleichen zueinander in Beziehung 
gesetzt; dies wird in der schon beschriebenen Weise mit «seg type-"hi"» bzw. 
«metamark function-"ref"» ausgezeichnet. Im Hinblick auf eine künftige Wei- 
terentwicklung des Schemas ware an die Einführung von Klassen zu denken, in 
denen Elemente zusammengefasst werden, wie von Clausen/Klug für Revisions- 
prozesse vorgeschlagen, um über Typologien und Kombinationsmöglichkeiten zu 
einem Analyseinstrumentarium für Musils Verwendung der Studienblatter in der 
mittleren Szene zu gelangen. Die Schnittmengen zwischen dem Textkorpus der 
Entwürfe und dem der Studienblátter werden im Annotationssystem (noch) nicht 
ausgewiesen; nur die allerdings sehr zahlreichen expliziten Verweise Musils in 
den Studienblattern auf Entwürfe sind durch <ref>Verweissigle</ref> kodiert. 

Ähnliches gilt für die Schmierblätter. Sie sind das Laboratorium für die Formu- 
lierungsexperimente Musils bei seiner Entwurfsarbeit. Streng genommen findet 
sich jede Textsequenz der Schmierblátter entweder im Entwurf-Korpus wieder oder 
sie gehört der Menge des Verworfenen an. Die Mengen des Weiterverwendeten und 
des Ausgeschiedenen durch Annotation zu bestimmen, ist ein verlockendes Ziel, 
das durch maschinelle Nachnutzung erreicht werden kann, nachdem die Grund- 
Annotation erfolgt ist. Diese besteht wie bei den Studienbláttern primar in der 
Identifizierung von Textblöcken, die in den Schmierbláttern auf großformatigen 
Seiten querfeldein angeordnet sind (Beispiel: MN, MI/5/199 — siehe Abbildung 2 
auf Seite 73). Es lassen sich vier Arten unterscheiden: a) Vorformulierung von 
Entwurfspassagen - Annotation: «ab type-"draft"»; b) in Listenform angeordne- 
te Formulierungsvarianten — Annotation: «ab type-"variant"» <list> «item»; 
C) gestrichene Blócke, wobei die Streichungen nicht Tilgungen markieren, sondern 
ein Signal für ‚erledigt‘ darstellen — Annotation: «ab type="strikethrough”>; 
d) Anmerkungen in der Art der Notate in den Studienblattern, wo es um Schreib- 
anweisungen geht - Annotation: «ab type="note”>. Durch die Datenmigration 
werden zunächst nur die Blockgrenzen realisiert, die Spezifikation der Typen kann 
erst in einem weiteren Schritt erfolgen. 

Ad c) Das Dokument tgd. xml ist dafür eingerichtet, textgenetische Dossiers 
zu den Schreibprojekten Musils — auf Werk- und Kapitelprojekt-Ebene — durch 
Verzeichnisse in Tabellenform zu reprásentieren. Generiert werden die Tabellen 
durch Übertragung der Tabellen zur Werk- und Kapitelgenese (siehe oben, Tabel- 
le 1 auf Seite 70) aus der KA nach XML/TEI. In den Tabellen laufen wie in einer 
Relaisstation sámtliche Verknüpfungslinien zwischen textgenetisch relevanten 
Informationen zusammen. Die Mittlere Szene ist durch die einzelnen Tabellen- 
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zeilen vertreten, die Stufen innerhalb des Gesamtprozesses (Makrogenese). Die 
Zeilen/Stufen entsprechen der synchronen Ebene des Zusammenspiels von Ent- 
würfen, Studienbláttern, Schmierblättern. Die Zellen enthalten je nach Spalte 
Informationen und Verlinkungen zur Anzahl der Manuskriptseiten, Seitensiglen, 
Manuskripttyp, Datierung, Pagina und Identifikatoren der Faksimiles. Als Kon- 
nektor fungiert der die Stufe identifizierende Attributwert im <tei-Header> des 
Transkriptions-Dokuments, oben angeführt am Beispiel für Stufe 3 des Kapitelpro- 
jekts Liebe deinen Nächsten wie dich selbst. Die entsprechende Tabellenzeile in 
tgd.xml, in der die ID vergeben wird, ist folgendermaßen kodiert: 


Listing 7: 
1 «row role-"data" xml:id-"moe3 3ge lie 3"» «cell role="data”> 
2  «idno type-"step" n="3">3</idno> </cell> 


6 Die Annotation der Großen Szene 


Musils Große Schreibszene bildet sich in der Gesamtanlage seines Nachlasses ab. 
Die makrogenetische Annotation zielt auf eine Übersetzung zwischen der Anord- 
nungslogik der Mappengruppen, Mappen, Konvolute, Hefte einerseits und der 
des Werks, seiner Teile und Kapitel andererseits. Diese Übersetzungsleistung ist 
bitter notwendig, denn die beiden Logiken scheinen nicht nur auf den ersten Blick 
nichts miteinander zu tun haben. Die inhaltliche Verortung durch TEI-Codes fin- 
det im <tei-Header> der Transkriptions-Dateien und in tgd. xml statt. Die Datei 
tgd.xml fungiert als Master-Dokument, in dem alle textgenetischen Relationen 
zusammenlaufen. In seiner Anlage folgt es dem Prinzip der Finalität, indem die 
Einzeldokumente die Werk-Struktur reprásentieren, d. h. das erste Teildokument 
ist dem 1930 publizierten Ersten Buch des MoE gewidmet, das zweite Teildokument 
dem Zweiten Buch von 1932, usw. Zusätzlich zu den Tabellen mit den chronolo- 
gisch geordneten kompakten Verzeichnissen der Nachlassmanuskripte enthält 
das textgenetische Dossier auch Angaben zur Druckhistorie und ausformulierte 
Textgeschichten zu den einzelnen Werken und Werkteilen. Im <tei-Header> der 
Transkriptionen ist unter <msPart> jede Manuskriptseite einem Werk oder einem 
Werkprojekt (zu Lebzeiten des Autors unveröffentlicht) zugeordnet. Im Fall des 
MoE werden die Zuordnungen hierarchisch differenziert vorgenommen, und zwar 
jeweils zu einem Werkteil, einem Kapitelkomplex (der Nachlass-Fortsetzung), ei- 
nem Kapitel (vom Autor veröffentlicht) und einem Kapitelprojekt (zu Lebzeiten 
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unveróffentlicht). Die Kategorie Kapitelkomplex spielt insofern eine wichtige Rolle, 
als ein betráchtlicher Anteil der Studienblátter keinem bestimmten Kapitelprojekt 
zugeordnet werden kann, sodass es notwendig wurde, für den kapitelübergreifen- 
den Bereich eigene Einheiten zu definieren. Die Annotation der werkbezogenen 
Hierarchien im <tei-Header> geschieht in folgender Weise: 


Listing 8: 

1 «msItem» 
«title type="work”>Der Mann ohne Eigenschaften</title> 
«titlePart type-"work-part"»Zweites Buch. Fortsetzung aus dem 
Nachlass (1937-1942)</titlePart> 

4  «titlePart type="chapter-group”>Dritte Genfer Ersetzungsreihe 
</titlePart> 

5 «title type-"chapter-project" n-"48"»Liebe deinen Nächsten wie 
dich selbst</title> 

6  «/msItem» 


Die Trennlinie zwischen der meso- und der makrogenetischen Ebene wird durch 
die zeitliche Verortung gezogen. Schreibakte innerhalb ein- und desselben Da- 
tierungsabschnitts gehören zur Mittleren Szene. Die Große Szene besteht im Um- 
schreiben der Entwürfe, der Generierung neuer Fassungen, sie spiegelt sich in 
Metamorphosen des Texts über große Zeiträume hinweg. Der TEI-konformen An- 
notation des chronologischen Befunds kommt eine Schlüsselrolle zu. Im «tei- 
Header» <msPart> und in den Tabellen von tgd. xml erfolgt die Verzeichnung der 
Datierungsabschnitte und der im Manuskript angegebenen bzw. erschlossenen 
Datumsangaben jeweils nach dem folgenden Muster: 


Listing 9: 

1 <origDate datingMethod="#dp” notBefore-"1940-03-01" notAfter-" 
1941-04-01"59-3: März 1940 - April 1941</origDate> 

2 «date datingMethod="#dp” n="9-3” notBefore-iso-"1940-03" 
notAfter-iso-"1941-04"»Màrz 1940 - April 1941</date> 

3  «origDate when-iso-"1929-10-30"/» 
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7 Annotation der intra- und intertextuellen 
Verweise 


Ein Hauptcharakteristikum von Musils Schreiben fand seitens der UNESCO sogar 
Eingang in die Begründung für die Erklarung des Nachlasses zum Dokumentener- 
be, dass nämlich das Wissen seiner Zeit „mittels eines Siglensystems des Autors 
zu einem Ganzen verwoben“ (UNESCO 2020) sei. Die digitale Repräsentation des 
hóchst komplexen Siglensystems gelingt mit der Annotation der TEI in einer zwar 
nicht ganz einfachen Weise, jedoch wird mit dem verwendeten aufwändigen Re- 
ferenzsystem erreicht, dass Musils prá-digitale hypertextuelle Schreibapparatur 
komplett im digitalen Medium abgebildet wird und damit als Hypertextsystem 
prásentiert werden kann. (vgl. Sahle 2013, 87) In der hier vorgestellten XML/TEI- 
Architektur sind Siglen an fünf Orten als Textknoten und als abstrahierter Attribut- 
wert verzeichnet: a) Seitensiglen im <tei-Header> der Transkription in «msPart» 
im Element <altIdentifier> in einer typisierten Form; b) Seitensiglen im <body> 
«text» der Transkription im Element «fw» in der transkribierten Form; c) Verweissi- 
glen im <body> «text» der Transkription im Element «ref» in der transkribierten 
Form; d) die Seitensiglen in ihrer makrogenetischen Funktionalitát in den Tabellen 
des Dokuments tgd. xml; e) Gesamtdokumentation sämtlicher Siglen mit allen 
Reprásentanten im Dokument tutorial.xml. 

Zu Musils Schreibapparatur záhlen neben dem Gebrauch des Siglensystems 
noch weitere Schreibakte im Gestus des Verweisens, die sich in den Nachlass- 
dokumenten als lokale Phánomene widerspiegeln, also der Kleinen Szene an- 
gehóren: Sie zeigen sich in der Verwendung spezieller Chiffren, und zwar für 
die Textrevision, für Verweise und für Abkürzungen. Die Chiffren werden gene- 
rell mit dem Element <metamark> ausgezeichnet, im Attributwert von @function 
erfolgt die náhere Bestimmung des Schreibakts, der hier seine Spur hinterlas- 
sen hat, z.B. <metamark function="deletion”/> für das Deleatur-Zeichen, ana- 
log wird bei allen nicht alphanumerischen Zeichen vorgegangen. Wenn sich die 
Funktion des graphischen Elements nicht bestimmen lásst, kommt «metamark 
function="unspecified”/> zum Einsatz. Graphische Darstellungen, Skizzen oder 
Zeichnungen Musils bei seiner Schreibarbeit werden durch <figure> repräsentiert, 
die häufigen Verweischiffren (Pfeile, Linien, u.a. Zeichen mit Verweischarakter) 
durch <metamark function="reference”/>. Mit Chiffren in Abkürzungsfunktion 
hat es eine besondere Bewandtnis: Enthält die Chiffre nicht implizit den Verweis 
auf etwas Text-Externes, das esin der digitalen Repräsentation durch seine Dechif- 
frierung in den Text zu holen gilt? So wurde entschieden, die Chiffren aufzulösen, 
dies erfolgt mit einem TEI-Instrumentarium für editorische Eingriffe, dem Element 
«choice» in Verbindung mit «abbr» und <expan>. Der deskriptiven Intention ge- 
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schuldet ist der allgemeine Verzicht auf editorische Annotationen, weshalb - am 
Rande bemerkt - Schreibversehen und Sonderschreibweisen Musils mit dem Ele- 
ment «sic» kodiert werden, ohne das richtigstellende <corr>. Als Beispiel für eine 
aufgelöste Chiffre sei die besonders häufig vorkommende für die „Parallelaktion“ 
im MoE angeführt: 


Listing 10: 

1 «choice» 

2  «abbr»//«/abbr» 

3  «expan»Parallelaktion, Parallele, parallel</expan> 
4  X/choice» 


Hier wird in der Annotationspraxis ein Schritt von der Beschreibung der Spuren des 
Schreibens zu deren Interpretation gesetzt. Ein weiterer folgt bei der Behandlung 
der Figurenchiffren Musils. Die Abkürzungen der Figurennamen des MoE, die Musil 
bei der Romanarbeit verwendet, sind - in geringerem Maß als die Verweissiglen, 
aber dennoch - Ausweis seines rhizomatischen, vernetzenden Schreibens. Musil 
hat diese Chiffren schon früh, Anfang der 1920er Jahre, erfunden und er verwendet 
sie über zwanzig Jahre in allen seinen Studien- und Schmierbláttern zum MoE. 
Ihre Annotation mit dem Element «rs» weist sie einem Register zu, einer Art von 
textgenetischem Figurenkommentar, womit die Grenze von der Annotation zur 
Kommentierung überschritten ist; z. B.: 


Listing 11: 


«rs type-"figure" ref-"Tuzzi"»«hi rend-"underline"»SCh T</hi></rs> 


Der Attributwert "Tuzzi" ist Lemma im Register figuren. xml, wo u. a. die Genese 
der Figur beschrieben wird. Noch einen Schritt weiter in Richtung auf Kommentie- 
rung der Intertextualitát weist die Annotation von Personennamen im Textkorpus 
des Musil-Nachlasses, da Personen fast immer Autoren sind. Die etliche Male vor- 
kommende Namenschiffre „Th M“ z.B. bezeichnet Thomas Mann, ausgezeichnet 
wird sie als «rs type-"person" ref="Mann_Thomas”>Th M</rs>, der Attributwert 
von @ref verweist auf den Eintrag zu Thomas Mann in einer Normdatenbank, die 
noch zu bestimmen sein wird. Ausgebaut wird diese Annotationspraxis, wenn ein 
konkretes Werk des Autors benannt und aus ihm zitiert wird, etwa in den zahlrei- 
chen Exzerpten im Nachlass Musils. Als einfaches Beispiel für den weitreichenden 
Sachverhalt móge die Anmerkung Musils auf einem Studienblatt dienen, Agathes 
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„Gedächtnis hat Ähnlichkeit mit dem der Imbezillen Bleuler 463“, ausgezeichnet 
wie folgt: 


listing 12: 

1 Gedächtnis hat Ähnlichkeit mit dem der Imbezillen 
2 «cit» 

3 <q>Bleuler 463«/q» 

4  <bibl><author>Bleuler, (Paul) Eugen</author> 

5  «title»Lehrbuch der Psychiatrie</title></bibl> 

6 </cit> 


Mit dem Attributwert von @corresp in dem Element «bibl» wird auf das Dokument 
bibliographie.xml verwiesen, wo sich das vervollstándigte bibliographische Zitat 
befindet. Zusätzlich besteht die Möglichkeit, im Fall der Exzerpte die Quelle im 
<tei-Header> <msPart> einer bestimmten Manuskriptseite zuzuweisen: 


listing 13: 

<surrogates> Quelle: 

<cit><q>Bleuler</q> 

<bibl><author>Bleuler, (Paul) Eugen</author> 
<title>Lehrbuch der Psychiatrie</title></bibl> 
</cit></surrogates> 
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Es besteht die Hoffnung, auf diese relativ einfache Weise das gesamte Netz von 
Intertextualitát, das Musils Nachlass überzieht, für die digitale Reprásentation 
und Nachnutzung einzufangen. 


8 Prásentation, Schnittstellen, Nachnutzung 


Mit der Ausrichtung auf den Schreibprozess erhált das hier vorgestellte XML/TEI- 
Annotationsmodell einen extra-textuellen Fluchtpunkt, der zu Einfachheit und 
Stringenz beitragen mag. Der Abschluss der Modellierungsarbeit ist noch für 2020 
vorgesehen, sie soll in eine Schema-Deklaration münden, auf die am Anfang der 
Dokumente verwiesen wird, nach dem Muster: 
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Listing 14: 


«?xml-model hrefz"../../Schema/Schema MUSIL.rnc" type="application/ 
relax-ng-compact-syntax"?» 


Auch die Publikation des Prototyps auf einer Editionsplattform der ÓNB ist schon 
für 2020 vorgesehen. Dort soll eine dreiteilige Prásentationsform, bestehend aus 
‚Lesen‘ (des Texts), ‚Schauen‘ (der Dokumente) und ‚Verstehen‘ (der Kontexte in 
einem interdiskursiven Kommentar) zunáchst in exemplarischer Weise verwirk- 
licht werden. Im Editionsbereich ‚Schauen‘ ist die integrierte Präsentation der 
Bilddateien, der Transkriptionen und des textgenetischen Dossiers geplant, die 
Transkription soll als TEI-Dokument (für den Download) und in Form einer HTML- 
Wiedergabe auf die Schnittstelle gebracht werden. Daraus ergeben sich insgesamt 
zwei Nachnutzungsperspektiven. Erstens für die Forschung als Korpus für die 
Analyse und Interpretation von Schreibprozessen unter Einschluss maschinel- 
ler Verfahren, wovon eine Rückkoppelung zur Verbesserung und Ergánzung der 
Annotationen zu erwarten ist; das Annotations-Schema selbst wird dabei zum 
Forschungsobjekt. Zweitens dienen die Annotationen auf der prozessualen Ebene 
als Basis für die Prásentation auf der Schnittstelle, mit dem Ziel, Anschauungs- 
material für ein Laienpublikum durch zusätzliche digitale Vermittlungsformen in 
einem digitalen Literaturmuseum zu bieten. 
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Lina Franken, Gertraud Koch und Heike Zinsmeister 
Annotationen als Instrument der 
Strukturierung 


Abstract: Annotation in the Humanities and Social Sciences covers a broad spec- 
trum of different concepts and practices. Hermeneutic approaches differ regarding 
the theoretical novelty of their hypotheses: a) verifying hypotheses in deductive 
approaches, b) extracting new hypotheses within the framework of existing theoret- 
ical assumptions in inductive approaches and c) generating theories related to the 
subject matter in abductive approaches. When it comes to annotations, we suggest 
a classification based on two criteria. The first criterion distinguishes process- 
oriented annotations from more product-oriented ones. This often correlates with 
the hermeneutic approach and at what point in the process of developing new 
knowledge annotation is actually applied. The second criterion relates to the mode 
of annotation: whether the main focus is on performing annotation manually or 
on applying automatic annotation. We exemplify our classification by means of 
cases involving the annotation of categories from (Computational) Linguistics and 
Cultural Anthropology in the interdisciplinary project hermA. 


Keywords: Levels of Annotation, Role of Interpretation, Classifying, Tagging, 
Segmentation, Computational Linguistics, Cultural Anthropology, Epistemology, 
Methodology 


1 Einleitung 


Annotationen von Texten kónnen sich auf ein breites Spektrum unterschiedlicher 
Textsegmente beziehen, von einzelnen Worten oder Wortbestandteilen über die 
Markierung inhaltlicher Argumentationen in lángeren Textspannen, Absátzen 
oder Kapiteln, bis hin zur Eróffnung zusatzlicher Interpretationsebenen durch 
freie Assoziationen ohne direkten Bezug zu einzelnen Textsegmenten. Sie werden 
so als Instrument der Strukturierung verwendet, wobei Strukturierungen von ganz 
unterschiedlichen Intentionen und damit auch Strukturierungsprinzipien geleitet 
sind. Annotationen sind somit ein wichtiger Arbeitsschritt für die weitere analyti- 
sche Bearbeitung von Textquellen im Rahmen von unterschiedlichen analytischen 
Verfahren. Annotationen werden dabei für ganz unterschiedliche Arbeitsschritte 
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im Verlauf von Forschungsprozessen angewendet, so dass sich innerhalb geistes- 
und sozialwissenschaftlicher Arbeitsweisen ein breites Spektrum an unterschiedli- 
chen Annotationsformen zeigt. Dementsprechend ist in hermeneutischen, also 
textverstehenden und textauslegenden Forschungsansátzen ein weiter Annotati- 
onsbegriff verbreitet, der den folgenden Überlegungen zugrunde gelegt und weiter 
ausbuchstabiert werden soll.! 

Die Spanne dessen, was in geistes- und sozialwissenschaftlichen Forschungen 
als Annotation verstanden wird, ist enorm. Annotationen sind zunáchst nach Funk- 
tion zu unterscheiden: Rapp unterscheidet Annotationstypen als (1.) technische 
Annotationen im Sinne von Metadaten sowie (2.) semantische und linguistisch- 
fachspezifische Annotationen und merkt abschließend an, dass ein Austausch 
mit den annotierenden Geistes- und Sozialwissenschaften nur wenig stattfindet 
(vgl. Rapp 2017, 258 f.). Allgemein dienen Annotationen der Markierung von für 
die Fragestellung relevanten Textstellen. Es sind fünf Formen zu unterscheiden. 
(1.) Annotationen bestehen als Informationen zu einem Datensatz in Form von 
Metadaten (Objektdeklaration). Es sind (2.) Taxonomie geleitete Annotationen insb. 
einzelner Wórter/Tokens, (3.) die Herstellung von Bezügen zwischen Datensätzen, 
etwa der Verweis auf Parallelobjekte oder andere Versionen (insb. in Sammlungen 
und Editionen) oder (4.) eine kategoriengeleitete Markierung. Schließlich sind 
(5.) auch freie Kommentare und Memos als Annotationen zu verstehen (vgl. zu 
dieser Systematik Koch 2015, 21). Darüber hinaus ist ein Rechtemanagement be- 
deutsam, bzw. die Frage, ob und für wen Annotationen nachnutzbar sind, ob diese 
also privat oder 6ffentlich sind (vgl. Bender et al. 2015). Andere Systematisierungen 
legen den Schwerpunkt stárker auf die Unterscheidung zwischen syntaktischen 
und semantischen Annotationen (Agosti und Nicola 2007) oder zwischen dem 
Prozess der interpretativen Auszeichnung und den aus dem Prozess resultierenden 
Reprásentationen (etwa Leech und Wilson 1996). 

In unserem Beitrag betrachten wir linguistische bzw. genauer computerlin- 
guistische kontrastierend mit kulturanthropologischen Annotationen und stel- 
len damit zwei verschiedene Verwendungsweisen von Annotationen zur Struk- 
turierung von Texten in analytische Einheiten gegenüber, mit denen die Texte 
im Forschungsprozess für nachfolgende Bearbeitungs- und Analyseschritte in 
Sinneinheiten gegliedert werden. 


1 Dies deckt sich mit dem Forschungsansatz des Verbundforschungsprojektes ,,Automatisierte 
Modellierung hermeneutischer Prozesse - Der Einsatz von Annotationen für sozial- und geis- 
teswissenschaftliche Analysen im Gesundheitsbereich (hermA)*, das seit 2017 in Kooperation 
der Universitát Hamburg mit der Technischen Hochschule Hamburg und der Hochschule für 
Angewandte Wissenschaften Hamburg realisiert wird (vgl. Gaidys et al. 2017). 
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In der Computerlinguistik erfolgen Strukturierungen formal meistens anhand 
von bereits bestehenden Kategorien, etwa auf der Basis von Tag Sets oder Voka- 
bularen, die als Annotationen den jeweiligen Textstellen zugewiesen werden. Die 
hier vergebenen Kategorien sind insofern Produkt von Vorarbeiten, die durch die 
Annotationen zur Anwendung kommen. Deswegen wird diese Arbeitsweise im 
Folgenden verkürzt als produkt-orientierte Annotation bezeichnet. Oft wird dieser 
Modus der Annotation automatisiert durchgeführt. 

Demgegenüber steht eine zweite Arbeitsweise, wie sie in der Kulturanthropolo- 
gie und anderen qualitativ-hermeneutisch arbeitenden Disziplinen im Rahmen von 
Grounded Theory geleiteten Annotationsprozessen verwendet wird. Hier werden 
Texte durch die freie Vergabe von Kategorien im sogenannten offenen Kodieren 
in Sinneinheiten untergliedert. Diese Kategorien werden im weiteren Verlauf des 
Forschungsprozesses aufgrund von weiteren Textbearbeitungen immer weiter prá- 
zisiert und ausdifferenziert, bis sie schließlich vollständig spezifiziert sind. Ziel 
ist dabei nicht die Erstellung eines Tag Sets, sondern die analytische Durchdrin- 
gung des Forschungsfeldes durch die prázise Ausarbeitung der Kategorien. Die 
Kategorien verándern sich entsprechend des wachsenden Verstándnisses im Lau- 
fe des Forschungsprozesses und bilden den Verlauf des Erkenntnisprozesses ab, 
bis sie in ihrer Gesamtheit das untersuchte Phänomen beschreiben und damit 
den Forschungsergebnissen Evidenz geben. Deswegen wird diese Arbeitsweise im 
Folgenden als prozess-orientierte Annotation bezeichnet. 

Ausgehend von den Annotationsweisen in Computerlinguistik und Kultur- 
anthropologie diskutiert dieser Beitrag die verschiedenen Nutzungsweisen von 
Annotationen im Erkenntnisprozess, sowie die damit einhergehenden Móglichkei- 
ten, Herausforderungen und Grenzen diese Annotationen durch Automatisierung 
zu unterstützen bzw. durch maschinelles Lernen die Annotation selbst zu automa- 
tisieren. Dafür stellen wir zunächst idealtypisch die hermeneutischen Forschungs- 
prozesse vor, die der Wissensproduktion in den beiden Disziplinen zugrunde liegen. 
Dabei zeigen wir auf, welche Funktion Annotationen zur Strukturierung von Texten 
und Wissensproduktion im jeweiligen Erkenntnisprozess haben. Vor dem Hinter- 
grund der Analyse dieser sehr unterschiedlichen Verwendungsweisen und der 
Qualitäten der Annotationen selbst kontrastieren wir die beide Modi des Annotie- 
rens — produkt- und prozess-orientierte - in einem Vierfeld-Schema im Hinblick 
auf die damit einhergehenden Möglichkeiten für automatische und manuelle Mo- 
dellierungen. Im Fazit dieser Betrachtung verschiedener Annotationsformen wird 
deren unterschiedlicher Beitrag für hermeneutische Forschung beleuchtet sowie 
Potentiale für wechselseitige Bereicherung der Wissensproduktion von beiden Fä- 
chern, Computerlinguistik und Kulturanthropologie, durch die Berücksichtigung 
des jeweils anderen Modus der Annotation ausgeleuchtet. 


92 — Lina Franken, Gertraud Koch und Heike Zinsmeister 


2 Hermeneutische Forschungsprozesse und die 
Verwendung von Annotationen 


In hermeneutischen Erkenntnisprozessen werden Annotationen an verschiedenen 
Stellen im Forschungsprozess genutzt. Sie dienen allgemein der Produktion von 
Erkenntnissen durch die Hinzufügung von Interpretationen und die Verknüpfung 
mit bestehendem Wissen. Als Modus der Dokumentation von Bedeutungszuschrei- 
bungen stellen sie eine wichtige Arbeitsform in interpretativen Analysen dar. In 
der Unterstützung von Interpretations- und Verstándnisprozessen kónnen An- 
notationen ganz unterschiedliche Funktionen erfüllen, etwa Rekonstruktion von 
Bedeutung(en), Markierung von Gleichem, Verweisen auf Ahnlichkeiten, Hervorhe- 
bung von Kernaussagen oder anderen Textstellen. Für Erkenntnisse generierende 
Annotationen werden unterschiedliche Prinzipien für die Strukturierungen von 
Texten angewendet. Diese sind geleitet von spezifischen, aus der Fragestellung 
hervorgehenden inhaltlichen Überlegungen, die zugleich in ein methodisches 
Vorgehen eingebunden sind, welches aus Forschungsstrategien mit den jeweils da- 
zugehórigen Theorien und Methodologien hervorgeht. Diese formulieren allgemein 
anwendbare Prinzipien, nach denen im Forschungsprozess Schlussfolgerungen 
gezogen und damit Erkenntnisse gewonnen werden kónnen. Erkenntnisprozesse 
werden dabei anhand der Art und Weise unterschieden, wie sie Bezug auf Theorien 
nehmen. Es wird zwischen deduktiven, induktiven und abduktiven Forschungs- 
zugängen unterschieden, die allerdings nicht mit den jeweiligen Prinzipien des 
logischen Schlussfolgerns (Reichertz 2013; Timmermans und Tavory 2012; Abbott 
2004) gleichzusetzen sind. 

Anders als bei deduktiven, induktiven oder abduktiven Formen des logischen 
Schließens, geht es bei den jeweiligen Forschungszugängen um die Möglichkeit 
auf bestehendes theoretisches Wissen zurückgreifen zu kónnen, also a) deduktiv: 
ausgehend von dem allgemeinen theoretischen Wissen den jeweiligen Forschungs- 
gegenstand zu untersuchen und damit in die Systematik der Theorie einzuordnen 
und damit ggf. auch die Theorie und ihre Erklárungsreichweite zu überprüfen, 
b) induktiv: ausgehend von einem spezifischen Forschungszusammenhang und 
den hier durchgeführten Forschungen allgemeine Regeln, also eine Theorie zu 
formulieren bzw. bestehende Theorien zu ergánzen und zu spezifizieren und c) ab- 
duktiv: bei neuen Phánomenen entdeckend zu explorieren, welche bestehenden 
Theorien als Erklärungsansätze für ein Verständnis des Phänomens produktiv 
gemacht werden können, um schließlich darüber hinausgehende gegenstandsbe- 
zogene Theorien für dieses Phänomen zu entwickeln. Dementsprechend setzen 
deduktive Forschungszugänge ein theoretisch weitgehend durchdrungenes Wis- 
sensgebiet voraus, wodurch eine strukturierte Anwendung des theoretischen Wis- 
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sens auf ganz unterschiedliche Gegenstandsbereiche móglich wird. Induktive und 
abduktive Forschungszugänge beziehen sich hingegen auf Gegenstandsbereiche, 
in denen das allgemeine theoretische Wissen als nicht ausreichend erklárungs- 
kräftig gilt und erweitert werden muss (induktiv) oder gänzlich unklar ist, wie 
sich der Gegenstand zum Geltungsbereich gángiger Theorien verhált und neue ge- 
genstandsbezogene Theorien entwickelt werden müssen (abduktiv). Die Zugánge 
unterscheiden sich also vor allem hinsichtlich des Theoriebezugs und dann in der 
Erkenntnisproduktion auch im theoretischen Neuigkeitswert der in der Forschung 
zu gewinnenden Hypothesen: a) die Arbeit mit bestehenden Regeln bei deduktiven 
Ansätzen, b) die Erweiterung von theoretischen Annahmen durch ergänzende 
Hypothesen im Rahmen bestehender theoretischer Vorannahmen bei induktiven 
Ansätzen und c) die Generierung von neuen gegenstandsbezogenen Hypothesen 
und Theorien in abduktiven Ansätzen. 

Für die Verwendung von Annotationen in deduktiven, induktiven und abduk- 
tiven Forschungszugängen ergeben sich unterschiedliche Konsequenzen. Dort, wo 
bestehende Theorien und gesichertes Wissen über strukturelle Zusammenhänge 
vorliegen, wie in deduktiven Forschungsansätzen, können diese als Regeln für 
Annotationsprozesse aufgegriffen und Texte anhand des intersubjektiv geteilten 
theoretischen Wissens strukturiert werden, etwa indem Kategoriensysteme, Tag 
Sets, Wörterbücher usw. angewendet werden. Je weniger gesichertes Wissen über 
die jeweiligen Gegenstandsbereiche und damit die Gültigkeit von Theorien vorliegt, 
umso offener sind die möglichen Ausgangspunkte für die Strukturierung von Tex- 
ten zu diesen Wissensgebieten. Damit wird der Erkenntnisprozess stärker abhängig 
von dem Vorverständnis, das hier zur Anwendung kommt und ist insgesamt offener 
im Hinblick auf relevante theoretische Bezüge. Dennoch ist auch in induktiven und 
abduktiven Forschungsprozessen die Herstellung eines intersubjektiv geteilten 
Verständnisses und damit der Objektivierung von Bedeutungen und Wissen das 
Ziel wissenschaftlicher Erkenntnis. Nur liegt diese Objektivierung noch nicht in 
strukturierter Form vor, sondern wird durch die Entwicklung von gegenstands- 
bezogenen Theorien und damit allgemeinen Regeln für den Gegenstand erst im 
Forschungsprozess selbst hergestellt. 

Für den Blick auf unterschiedliche Annotationsweisen ist somit ein Verständ- 
nis davon notwendig, wann bestehendes theoretisches Wissen zur Strukturierung 
angewendet wird und wie theoretisch wenig durchdrungene Wissensgebiete mit 
Hilfe von Annotationen strukturiert, systematisiert und in verallgemeinerbare 
Regeln als gegenstandsbezogene Theorien überführt werden. 
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3 Fachspezifische Annotationsweisen in der 
Computerlinguistik und Kulturanthropologie 


Im Folgenden stellen wir beispielhaft Annotationen aus der Computerlinguis- 
tik und Kulturanthropologie vor, die das Spektrum der Annotationsweisen von 
produkt-orientierter und prozess-orientierter Annotation veranschaulichen. Bei 
der Computerlinguistik beschránken wir uns auf Beispiele linguistischer Annotati- 
onsebenen. 


3.1 Linguistische Annotationen als Explizierung sprachlicher 
Strukturen: Wortarten, Dependenzsyntax und Koreferenz 


Der computerlinguistische Zugang zu Annotationen ist vorwiegend deduktiv, ins- 
besondere, wenn die Annotationskategorien genuin linguistische Konzepte dar- 
stellen. Annotationen werden dann typischerweise aus theorie- oder datenbasier- 
ten Frameworks abgeleitet. Ein induktiver Aspekt liegt vor, wenn die Analyse- 
kategorien bei der Anwendung auf authentische Korpusdaten weiterentwickelt 
werden. Dies ist normalerweise der Fall, wenn ein Tag Set und explizite Annota- 
tionsguidelines erstellt werden, da theoriegeleitete Modellierungen die Vielfalt 
der sprachlichen Ausprägungen selten umfassend abdecken. Ähnliches gilt, wenn 
ein bestehendes Tag Set auf neue Texttypen angewendet wird, da sich verschie- 
dene Texttypen sprachlich unterscheiden, zum Beispiel das Vokabular und die 
Grammatik in standardsprachlichen Zeitungsartikeln gegenüber der Sprache von 
Transkripten aufgenommener Interviews mit Abbrüchen und Reparaturphánome- 
nen oder der kreativen Sprache und Vorstellungswelt in literarischen Texten. 

Ein Tag Set listet die vorgesehenen Annotationslabels exhaustiv auf und ist Teil 
der Annotationsguidelines, in denen die zugrundeliegenden Analysekategorien 
definiert und anhand von Beispielen illustriert werden. Die Guidelines richten sich 
dabei sowohl an die Annotator*innen, indem sie konkrete Entscheidungshilfen für 
die Annotation problematischer Fálle geben z. B. in der Form von linguistischen 
Tests, als auch an mógliche Nachnutzer*innen der annotierten Texte, da sie im 
Verlauf des Annotationsprozesses getroffene Entscheidungen dokumentieren, z. B. 
wenn ein sprachliches Phánomen sich keiner der vorgegebenen Labels eindeutig 
zuordnen lásst, aber für die vollstándige Annotation eine eindeutige Entscheidung 
getroffen werden muss. Bei computerlinguistischen Annotationsvorhaben wird 
die Entwicklung der Guidelines als Pilotphase deklariert, bevor in der eigentlichen 
Annotationsphase auf der Basis eines dann konstant gehaltenen Annotations- 
schemas größere Textmengen annotiert werden. Der iterative und teils induktive 
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Prozess der Entwicklung von Annotationskategorien wurde in Anlehnung an 
den hermeneutischen Zirkel als Annotationszyklus? beschrieben (Lemnitzer und 
Zinsmeister 2015, 103f.) bzw. MAMA cycle genannt (Pustejovsky und Stubbs 2012), 
ein Akronym für model-annotate-(evaluate, revise)-model-annotate. Für die Nach- 
nutzung im maschinellen Lernen ist er Teil der sogegenannten MATTER-Methode 
(Pustejovsky und Stubbs 2012, 23-32): model, annotate, train, test, evaluate, revise, 
in welcher der model-Schritt die Modellierung der Konzepte in den Annotationsgui- 
delines bezeichnet und train den Schritt des maschinellen Lernens auf der Basis 
der annotierten Daten. Resultat ist ein trainiertes Programm, mit dem neue Daten 
entsprechend weiterannotiert werden kónnen. Das Testen dieses Programms kann 
zeigen, dass Revisionen in den Guidelines bzw. den bestehenden Annotationen 
nótig sind, die dann wiederum als Grundlage für weiteres maschinelles Lernen 
dienen kónnen. 

Für viele linguistische Beschreibungsebenen haben sich im letzten halben 
Jahrhundert etablierte Annotationsschemata entwickelt, mit denen Texte manuell 
und automatisch annotiert werden (z. B. Kucera und Francis 1967; Marcus et al. 
1992 für Wortarten des Englischen; Schiller et al. 1999 für Wortarten des Deutschen). 
Unterstützt wurde der Standardisierungsgedanke durch wissenschaftspolitische 
Strategieinitiativen wie die von der EU finanzierte Expert Advisory Group on 
Language Engineering Standards (Leech und Wilson 1996). Ein wichtiges Güte- 
kriterium dieser Art von Annotationen ist die intersubjektiv übereinstimmende 
und konsistente Anwendung der Annotationskategorien auf Texte (Leech 1997; 
Pustejovsky und Stubbs 2012; Kübler und Zinsmeister 2015). Dieses produkt- 
orientierte Vorgehen lässt naturgemäß wenig Spielraum für Exploration von 
unbekannten Phánomenen. 

Im Kontext von Projekten in den Digital Humanities, wie dem Projekt hermA, 
dienen linguistische Annotationen oftmals nicht dem Erkenntnisgewinn in Bezug 
auf linguistische Fragestellungen, sondern zur Explizierung sprachlicher Struk- 
turen, um von der Textoberflache eine Brücke zum Inhalt des Textes zu erhalten. 
Linguistische Annotationen werden hier nicht mit dem Anspruch durchgeführt, 
neue linguistische Analysekategorien zu entwickeln, sondern orientieren sich — 
um Texte linguistisch zu strukturieren - vorwiegend an bereits etablierten Annota- 
tionsguidelines. Das Annotieren ist daher stark deduktiv und produkt-orientiert 
ausgerichtet. Diese Perspektive auf Annotationen wird im Folgenden anhand von 
Beispielen manueller und automatischer linguistischer Annotationen im Projekt 
hermA verdeutlicht. 


2 Siehe auch das Konzept des erweiterten hermeneutischen Zirkels in der Literaturwissenschaft 
(Gius und Jacke 2017). 
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Für die literaturwissenschaftlich motivierte Fragestellung nach der Charakteri- 
sierung von literarischen Figuren wurde ein Roman der Autorin Julie Zeh manuell 
mit linguistischen Koreferenzannotationen, bei denen die wiederholte Bezugnah- 
me auf die selbe Figur markiert wird, und automatisch mit Wortarten- und syntak- 
tischen Annotation annotiert. Das Ziel der automatischen Annotation war, den 
gesamten Romantext syntaktisch zu erschließen, um Textstellen mit expliziter 
Attribution identifizieren zu kónnen und - unterstützt durch das Produkt der ma- 
nuellen Koreferenzannotation - für einzelne Figuren des Werks zusammenfassen 
zu kónnen (Andresen und Vauth 2018; Andresen et al. 2018). Explizite Attribution 
bezeichnet dabei syntaktisch prádikative Strukturen, bei denen ein nicht-verbales 
Prädikat einem syntaktischen Subjekt zugeordnet wird: In dem Beispiel „Rosen- 
treter ist ein guter Junge“, wird der Figur Rosentreter als syntaktisches Subjekt 
die Eigenschaft „ein guter Junge“ zu sein, attestiert, welches in diesem Satz als 
nominales Prädikativ annotiert ist. Die manuelle Annotation der Koreferenzanno- 
tation wurde auf der Basis von bestehenden Annotationsguidelines (vgl. Rösiger 
et al. 2018) durchgeführt, die in der Pilotphase induktiv für die Fragestellungen 
des Projekts angepasst wurden. Im Projektinteresse standen die Figuren des Ro- 
mans, d.h. ausschließlich menschliche Akteure. Verschiedene Aspekte dieser 
Akteure z.B. die „innere Mia“ und die „äußere Mia“, die man als unterschiedli- 
che Referenten hätte konzeptualisieren können, wurden in einer gemeinsamen 
Koreferenzgruppe zusammengefasst. Referenzen über Eigenschaften wie „eine 
genervte Männerstimme“ oder Körperteile wurden als koreferent mit der damit 
bezeichneten Figur annotiert. Im induktiven Teil des Annotationsprozesses wur- 
den damit keine neuen Kategorien entwickelt, sondern bestehende und in der 
Literatur bereits ausführlich diskutierte Analysekonzepte im Sinne der Forschungs- 
frage und in Abgleich mit den zu analysierenden Daten modifiziert. Im Anschluss 
an die Pilotphase wurde der Rest des Korpus mit den dann festgelegten Guideli- 
nes vollständig annotiert. Beim weiteren Annotieren auftretende Ambiguitäten 
oder andere Unsicherheiten in der Analyse wurden diskutiert und falls möglich 
einer der bestehenden Analyseformen zugeordnet. Diese Entscheidungen wurden 
annotationsbegleitend dokumentiert. Hierbei zeigt sich die produkt-orientierte 
Grundmotivation der linguistischen Annotation, da die Dokumentation vor allem 
auch dazu dienen soll, einzelne Entscheidungen, die das Annotationsprodukt am 
Ende prágen, für mógliche Nachnutzer*innen nachvollziehbar zu machen. 

Die automatische syntaktische Annotation wurde fast ausschließlich deduktiv, 
produkt-orientiert eingesetzt. Im Projekt wurde hierfür eine Pipeline aus Wortarten- 
Taggern und Dependenz-Parsern entwickelt, die auf einem bestehenden anno- 
tierten Korpus ergänzt um projektinterne Texte trainiert und für die Zielkategorie 
der nicht-verbalen Prädikation optimiert wurde (Adelmann et al. 2018 a,b). Der 
Optimierungsschritt beinhaltet auch prozess-orientierte Momente, da hier zwar 
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nicht die Kategorien modifiziert wurden, aber im Vergleich verschiedener Annotati- 
onsergebnisse, das optimale Tool für die geforderte Teilaufgabe identifiziert wurde. 
Das Annotationsschema des zugrundeliegenden Trainingskorpus wurde dabei 
unverändert übernommen. Wie bereits ausgeführt, war das Ziel hier nicht die Wei- 
terentwicklung linguistischer Erkenntnisse, sondern eine produkt-orientierte Struk- 
turierung der Textmasse durch die Zusammenfassung von Textsequenzen im Sinne 
von relevanten syntaktischen Kategorien, um diese dann der Attributionsanalyse 
zuzuführen. Analog zur literaturwissenschaftlich motivierten Attributionsanalyse 
werden im Projekt hermA auch pflegewissenschaftliche und kulturanthropologi- 
sche Fragestelllungen über sogenannte Syntaxprofile erschlossen. Hierfür werden 
nicht nur die oben genannten nicht-verbalen Prádikationsstrukturen ausgewertet, 
sondern weiterführend alle Satzglied-Relationen erkundet, um Eigenschaften von 
Akteuren der Palliativpflege bzw. im Diskurs zur Telemedizin zu untersuchen (vgl. 
Andresen et al. 2020). Der Einsatz der Annotationen ist hierbei wie oben dargelegt 
vorwiegend produkt-orientiert. Dies verhált sich anders, wenn die Disziplinen Text 
mit ihren eigenen Analysekategorien annotieren. Für die Kulturanthropologie wird 
dies im folgenden Abschnitt veranschaulicht. 


3.2 Kulturanthropologische Annotationen im Kontext der 
Grounded Theory: Bedeutungen, Kontexte und 
Suchstrategien 


Die Kulturanthropologie legt ihren Forschungen vor allem induktive oder abduk- 
tive Forschungszugänge zugrunde, weil sie an der Herausbildung neuer sozialer 
und kultureller Phánomene in einer von Wandel geprágten Welt interessiert ist. 
Im Bestreben, diesen Wandel und die Herausbildung sozialer Ordnungen wis- 
senschaftlich zu erforschen, werden insbesondere Diskursanalysen (Keller 2011, 
260 f.) und Ethnografien (Warneken 2006) realisiert. Hierbei ist die Auswertung 
von relevanten Diskursäußerungen in Texten aber auch anderen Materialien eine 
wesentliche Arbeitsweise, die methodologisch von den Prinzipien der Grounded 
Theory (Glaser und Strauss 1967) geleitet wird. Diese sieht verschiedene Formen 
der Kodierung bzw. Kategorienvergabe vor, die im Folgenden erläutert werden: 
das offene, das selektive und das axiale Kodieren werden jeweils in Form von 
Annotationen am Text vorgenommen. Außerdem wird eine weitere Form der An- 
notation durch das Schreiben von sogenannten Memos in die Wissensproduktion 
integriert. Diese kann als Annotationsmodus auf der Metaebene verstanden wer- 
den, über den Reflexionen zur Kategorienbildung und zum Forschungsprozess 
insgesamt dokumentiert werden. Die Annotation der Texte sowie die Auswahl von 
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diesen zur Korpuserstellung ist dabei ein iterativer Prozess, der mehrfach zyklisch 
durchlaufen wird. 

Um diese Aussagen nachvollziehbar zu machen, soll die Annotationspraxis 
im Folgenden an der Akzeptanz von Telemedizin aufgezeigt werden. Telemedi- 
zin, das sind tele- und informationstechnisch verknüpfte Anwendungen für den 
Gesundheitsbereich, wie etwa eine Videosprechstunde, aber auch spezifische- 
re Entwicklungen wie die Überwachung des Blutzuckerwertes bei Diabetikern 
mittels eines Implantats, das Daten sendet. Eng verbunden damit sind informa- 
tionstechnologische Entwicklungen im Gesundheitsbereich und die Etablierung 
von entsprechenden Infrastrukturen, die Anwendungen erst ermóglichen (vgl. Bel- 
linger 2014, Fischer und Krámer 2016, Mathar 2010). Die Akzeptanzproblematiken, 
die gegenüber der Einführung der Telemedizin in Deutschland bestehen, sind im 
Projekt hermA anhand einer wissenssoziologischen Diskursanalyse untersucht 
worden. Hierbei werden in einer qualitativen Analyse öffentliche Äußerungen und 
Debatten zur Telemedizin im Hinblick auf unterschiedliche Positionen und die 
damit verbundenen Aushandlungsprozesse daraufhin untersucht, welche Wissens- 
ordnungen sich hier herausbilden, also bestimmte Sichtweisen als dominierende 
Positionen aus dem Diskurs hervorgehen, wáhrend andere als weniger relevant 
begriffen werden. 

Um die entsprechenden Positionen im Diskurs herauszuarbeiten, ist eine Sich- 
tung und Strukturierung von umfangreichen Quellen notwendig. Hierfür wird mit 
theoretischem Sampling gearbeitet, also der Auswahl von für die Fragestellung 
relevanten Quellen. Dabei ist Ziel, „nicht einfach möglichst viele Daten, sondern 
möglichst relevante Daten zu erheben“ (Götzö 2014, 450), also das Prinzip der 
Datensparsamkeit umzusetzen und damit qualitative Analysen zu erleichtern. Die 
relevante Datengrundlage wird in mehreren, iterativ wiederkehrenden Prozes- 
sen durch Forscher*innen selektiert, annotiert und analysiert (vgl. Merkens 2012; 
Strauss und Corbin 1996, 150), wobei automatisierte Verfahren aktuell nur we- 
nig, fast ausschließlich in Form von generischen Suchen bei der Selektion der 
Daten eine Rolle spielen. Für die qualitative Auswertung der Diskursmaterialien 
im Hinblick auf die Wissensordnungen, die sich im Diskurs herausbilden, sind 
Kenntnisse des (deutschen) Gesundheitssystems mit den unterschiedlichen Akteu- 
ren und (gesetzgeberischen) Prozessen als Vorwissen notwendig, eine fundierte 
Kenntnis von Sozial- und Kulturtheorien sowie eine offene Haltung in Bezug auf 
Themen, die in die Aushandlung eingebracht werden. Konkret wurde der anfángli- 
che Fokus, mit dem die Quellenerhebung zur Telemedizin als offenes Sampling 
begonnen wurde, entwickelt anhand von einigen wenigen Dokumenten des Wis- 
senschaftlichen Dienstes des Bundestags (Wissenschaftlicher Dienst 2011) und der 
Bundesärztekammer (2015). So konnte das Grundverstándnis davon ermittelt wer- 
den, was unter Telemedizin verstanden wird. Erst nach diesem ersten Durchgang 
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der Korpuserstellung, Annotation und Analyse wurde entschieden, welche weitere 
Quellengrundlage wie erhoben, annotiert und ausgewertet wird, um Akzeptanz- 
problematiken zu identifizieren - als iterativer Prozess begleitet die Korpusbildung 
den kompletten Forschungsprozess. 

Annotieren spielt in diesem Prozess eine grundlegende Rolle: von Beginn 
an werden Daten mit Markierungen versehen, die Aufschluss über die mógliche 
Bedeutung für die Fragestellung geben sollen. Annotationskategorien sind dabei 
nicht vorgegeben, sondern als Prozess zu verstehen. Offenes Codieren markiert zu- 
náchst für die Fragestellung interessante Passagen, um von den Texten ausgehend 
nach und nach abstraktere Konzepte zu bilden und vorhandene Themen benennen 
zu kónnen. Entsprechende Konzepte werden fortlaufend als (neue) Kategorien fest- 
gehalten und in dieses Verfahren begleitenden Memos nachvollziehbar gehalten. 
Das Annotieren selbst dient dabei der fortlaufenden Strukturierung des Kategorien- 
systems, in welchem sich mit zunehmendem Erkenntnisprozess zentrale Aussagen 
zum Forschungsfeld manifestieren. 

Die ersten offenen, ungerichteten Annotationen erfolgten an den genannten 
Dokumenten von Bundestag und Arztekammer, schnell konnte jedoch aufgrund 
des Vorwissens der beteiligten Forschenden die Politik als eine relevante Akteurs- 
gruppe identifiziert werden. Mit diesem Wissen wurde eine Korpuserweiterung als 
gezieltere Quellengenerierung angestoßen. Hierfür wurden die Protokolle des Deut- 
schen Bundestages nach den mittlerweile identifizierten Schlüsselbegriffen für 
das Phánomen Telemedizin gesichtet (zur Nutzung von Wortfeldern vgl. Adelmann 
et al. 2019). Darauf aufbauend wurden 119 Protokolle bzw. relevante Tagesord- 
nungspunkte des jeweils protokollierten Sitzungstages offen annotiert. Schnell 
zeigten sich relevante Gesetzesänderungen, insbesondere das 2015 verhandel- 
te eHealth-Gesetz (Plenarprotokolle 18/116 und 18/43) sowie das Terminservice- 
und Versorgungsgesetz aus dem Jahr 2019 (Plenarprotokolle 19/71 und 19/86). In 
den Plenarsitzungen wurde jedoch auch an anderer Stelle in unterschiedlichen 
Kontexten zur Telemedizin diskutiert, was in offenen Kategorien zunáchst nur 
festgehalten wurde. Entsprechend waren die Kategorien benannt mit beispiels- 
weise „IT für Telemedizin notwendig“, „Telemedizin kein Ersatz für Hausarzt oder 
Krankenhaus“ oder „Patientenautonomie, Patientenhandeln, Patientenrechte“. 
Die entsprechenden Kategorien strukturieren den weiteren Blick auf das Quellen- 
material insofern, als dass sie Deutungen und Zusammenhänge festhalten, dabei 
jedoch nur vorläufig sind. 

Diese erste Annäherung durch offene Annotationen nach Grounded Theory ver- 
langt ein prozessorientiertes Annotationsverständnis, das eng am Text und wenig 
auf feste Kategorien oder gar Taxonomien fixiert ist. Zu diesem Zeitpunkt bestehen 
kein Annotationsguidelines, sondern vielmehr ist die Fragestellung in Kombi- 
nation mit dem Vorwissen der Annotator*innen entscheidend dafür, möglichst 
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relevante Textstellen zu markieren. Eine Systematisierung und Differenzierung 
erfolgt wahrend und nach diesen Annotationen als iterativer Prozess, in dem das 
Kategoriensystem zur Strukturierung aufgefáchert und Relationen zwischen den 
Kategorien spezifiziert werden. Gerade Mehrdeutigkeiten sind dabei erkenntnisge- 
nerierend, da sie zur Differenzierung nótigen. Durch die zunehmende Sáttigung 
von Kategorien im Laufe des Annotierens, also der Situation, dass keine neuen 
Kategorien mehr hinzukommen, wird deutlich, wann alle relevanten Dimensionen 
eines Phánomens dargestellt sind. Erst zum Abschluss des Forschungsprozesses 
ist das Kategoriensystem entsprechend verfestigt. 

Axiales Codieren bedeutet dann vor allem eine Neuordnung der Kategorien, 
eine „Verfeinerung und Differenzierung schon vorhandener Konzepte“ (Böhm 2012, 
478), die in ein Bezugssystem zueinander gesetzt werden. Durch selektives Codie- 
ren wird in der Folge das Material in seiner Relevanz weiter aufgeschlüsselt, um 
eine ,verdichtete Geschichte über die Kernkategorie zu erzáhlen* (Gótzó 2014, 451). 
Im Zuge des axialen Annotierens werden, in der Forschungspraxis oft ineinan- 
der verschränkt, die offen entwickelten Kategorien verdichtet und vernetzt. Dabei 
erfolgt auch eine Ausdifferenzierung einzelner Kategorien. Die im ersten Schritt 
offen in der Textannotation erstellte Liste von Annotationskategorien zur Teleme- 
dizin wurde in mehreren Durchgängen strukturiert, so dass Kategorien auf einer 
hóheren Abstraktionsebene gebildet werden konnten, welche die weitere Analyse 
leiten, dabei jedoch flexibel bleiben und immer wieder ausdifferenziert werden, 
wenn sich Ambiguitäten ergeben, die auf die Komplexität des untersuchten Fel- 
des verweisen. So wurden Kategorien gebildet, die etwa „Aufbau von (digitaler) 
Infrastruktur“ oder „Zusammenspiel der Akteursgruppen und Abhängigkeiten“ 
lauten, erst recht spät wurde beispielsweise eine Kategorie „Digitale Literarität 
der Akteure“ eingefügt und das Material daraufhin erneut nach entsprechenden 
Textpassagen und Deutungszusammenhängen durchgesehen. 

Im weiteren Forschungsverlauf gilt es außerdem, weitere Daten einzubeziehen. 
Auch dies dient der Strukturierung, da Texte mittels Metadaten als zu berücksich- 
tigen annotiert werden. Das bedeutet, „die aus den ersten Daten gewonnenen 
Erkenntnisse zu differenzieren, zu festigen und zu verifizieren.“ (Truschkat et al. 
2011, 366 f.) Mit der aufgrund von Fragestellung und ersten Annotationen geschärf- 
ten spezifischen Blickrichtung und Aufmerksamkeit wird gezielt nach weiterem 
Material gesucht und dieses in das Korpus einbezogen: „Die Kriterien des theo- 
retischen Sampling [...] dienen dazu, die Erhebung und Analyse von Daten noch 
und gerade während der Theoriegenerierung anzuleiten. Sie werden permanent 
modifiziert und wohl überlegt am richtigen Ort und zur rechten Zeit der Analy- 
se in Anschlag gebracht.“ (Glaser und Strauss 1967, 64) Es kann also zu keinem 
Zeitpunkt der Erhebung weit in die Zukunft hinein entschieden werden, welche 
Daten erhoben werden. Für die Analyse von Akzeptanzproblematiken erfolgte das 
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iterative Sampling mittels eines Webcrawling (Adelmann und Franken 2020). Die 
dabei gesammelten Textdaten boten eine Quellengrundlage, auf der mit verschie- 
denen Formen des halbautomatischen Filterns als technische Unterstützung (Koch 
und Franken 2020) theoretisches Sampling realisiert werden konnte. Gleichzeitig 
wurde das so entstandene Korpus in mehreren Schritten erweitert, das Sampling 
inner- und außerhalb der mehr als 12.000 gespeicherten Dokumente dauert an. So 
entsteht eine ständig ergänzte Auswahl von Textquellen unterschiedlicher Art, die 
von Geschäftsberichten und Informationen der Ärztekammern für ihre Mitglieder, 
Artikeln aus Zeitschriften für Krankenkassenversicherte über Websites mit der 
Erläuterung von digitalen Angeboten wie Telesprechstunden und Pressemitteilun- 
gen von unterschiedlichen Akteuren bis hin zu Studien, Strategiepapieren und 
den Konzeptionspapieren von Modellprojekten reicht. Neben den teilautomati- 
sierten Findeheuristiken wird immer dann neues Material ins analysierte Korpus 
aufgenommen, wenn bei der Annotation bisher unbekannte oder zu wenig berück- 
sichtigte Teilbereiche des Phänomens entdeckt werden. Annotationen ermöglichen 
die Strukturierung und thematische Orientierung anhand des zunehmend ausdif- 
ferenzierten und stabilen Kategoriensystems. 

Im theoretischen Sampling und dem dieses begleitende Annotieren spielen 
maximale und minimale Kontrastierungen für die Entdeckung weiterer relevan- 
ter Materialien und Kategorien bzw. die Festigung der bestehenden Kategorien 
eine zentrale Rolle. Es geht um „das Entdecken von Kontrastdimensionen und 
Minimalvergleichen“ (Truschkat et al. 2011, 375). Beim minimalen Vergleichen 
werden ähnliche Daten herangezogen, um Kategorien zu festigen und voneinander 
abzugrenzen, wie es hier mittels Bundestagsprotokollen aus unterschiedlichen 
Legislaturperioden erfolgte. Erst wenn die Kategorien und Schlüsselkategorien 
an ähnlichem Material gefestigt sind, können und müssen diese mit maximal 
unterschiedlichem Material konfrontiert werden. „Das heißt, das Universum der 
gesammelten Daten wird zuerst begrenzt und dann - falls nötig - sorgfältig aus- 
gedehnt, indem man den Erfordernissen des theoretischen Sampling gemäß zur 
Datenerhebung zurückkehrt.“ (Glaser und Strauss 1967, 126) Beim maximalen Kon- 
trastieren können unterschiedliche Daten gesammelt werden, die doch in eine 
Kategorie gehören, also etwa die Darstellungen zum Thema Datenschutz im Zu- 
ge der digitalen Gesundheitsversorgung durch verschiedene Akteure. Durch das 
dann sehr heterogene Material kann nach „Variationen, Gründen, Bedingungen, 
Konsequenzen und Wahrscheinlichkeiten von Beziehungen, Strategien, Prozessen 
und strukturellen Mechanismen“ (Glaser und Strauss 1967, 72) gesucht werden. 

Neben und während dem Annotieren werden Memos verfasst und fortlau- 
fend ergänzt, die abstrahierend Ideen und Fragen festhalten sowie theoretische 
Gedanken sichern, aber auch einzelne Annotationen erläutern oder Planungen 
strukturieren (vgl. Glaser und Strauss 1967, 121f.). „Sie [die Memos] unterstützen 
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Ihr Pendeln [das der Forschenden] weg von den Daten hin zum abstrakten Denken, 
und dann Ihr Zurückkehren zu den Daten, um diese Abstraktion in der Wirklich- 
keit zu verankern.“ (Strauss und Corbin 1996, 170). Aus deren Sortieren können 
erste Bausteine für die Ergebnisse der Untersuchung entstehen. Die mittlerweile 
umfangreichen Memos werden für die Analyse von Akzeptanzproblematiken der 
Telemedizin aktuell wiederum annotiert, um übergreifende Ergebnisse in Verbin- 
dung mit den Annotationen der Korpustexte zu bündeln. 

Fortlaufend werden die durch theoretisches Sampling als Gütekriterium iden- 
tifizierten Quellen annotiert, um ein immer tieferes Phänomenverständnis zu 
entwickeln. Diese Arbeiten sind abgeschlossen, wenn eine theoretische Sáttigung 
erreicht ist, d.h. keine neuen Erkenntnisse oder Kategorien mehr aus neuem Mate- 
rial entstehen, sondern sich diese auch in maximaler Kontrastierung wiederholen 
und die Beziehungen der Kategorien untereinander gefestigt herausgearbeitet 
sind (vgl. Strauss und Corbin 1996, 159). Bereits vorher kann eine Sattigung in 
Bezug auf einzelne Gruppen oder Kategorien eintreten, die zur Hinwendung zu 
anderen Bereichen führt, bis auch diese sich als gesáttigt erweisen (vgl. Glaser 
und Strauss 1967, 77). Es zeigte sich beispielsweise schnell die These als gesättigt, 
dass telemedizinische Anwendungen als Chance für bessere medizinische Ver- 
sorgung im lándlichen Raum angesehen werden, hier wurde auch bei maximaler 
Kontrastierung der Quellengrundlage keine abweichende Position identifiziert. 
Dementsprechend erwies sich die Kategorie als gesáttigt und die Ergebnisse wur- 
den zur Veróffentlichung ausgegliedert (Franken 2020 in Vorbereitung). Andere 
Akzeptanzproblematiken, wie etwa die Einführung einer Telematikinfrastruktur 
in Arztpraxen, sind vielschichtiger angelegt und benötigen deshalb eine größere 
Menge an Textbearbeitungen und Annotationen, um zu gesáttigten und validen 
Ergebnissen zu kommen. 

Durch selektives Annotieren wird das Material dabei in seiner Relevanz weiter 
aufgeschlüsselt, um die Phánomenstruktur auffáchern zu kónnen. Dazu gehórt, die 
Fragestellung mit zunehmendem Wissen der Forschenden weiter zu konkretisieren. 
Gerade in der Beforschung emergenter Phánomene laufen die Entwicklungen, hier 
die Debatten um die Akzeptanz von Telemedizin, parallel zur Forschung weiter, 
so dass neue Entwicklungen der Diskussion nicht vollumfánglich abdeckbar sind 
und Darstellungen Momentaufnahmen bleiben müssen. Gerade durch die fortlau- 
fende Analyse und Verschriftlichung kann dem begegnet werden. Die Perspektive 
der Diskursanalyse wird damit insbesondere auch im Modus der Darstellung der 
Forschungsergebnisse wieder zentral, denn die sich ausbildenden Positionen sind 
gerade nicht feststehend und werden in der Gegenwart weiterhin verhandelt. Je 
nach Forschungsbereich zeigen sich im Rahmen der Analyse Deutungshoheiten 
oder doch zumindest Diskurspositionen. Potentiell sind immer weitere Korpo- 
ra identifizierbar, anzunehmen ist jedoch ein abnehmender Erkenntniszuwachs 
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auch bei in der Aushandlung begriffenen gesellschaftlichen Phánomen, die eine 
abschließende Darstellung erlaubt. Für die Akzeptanzproblematiken der Telemedi- 
zin steht dieser Arbeitsschritt noch aus. Prozess-orientierte Annotationen spielen 
dabei eine zentrale Rolle, wáhrend Annotationen als Produkt erst am Ende des 
Forschungsprozesses stehen, sofern sie nicht als technische Unterstützung und 
Vorbereitung als Findeheuristik für relevante Analyseeinheiten genutzt werden. 


4 Annotationen als Instrument der Strukturierung 


Wir haben zwei fachspezifische Herangehensweisen an Annotation vorgestellt, die 
sich in ihrer Annotationspraxis stark unterscheiden, aber jeweils als Instrument 
der Strukturierung zu analytischen Zwecken dienen. Bringt man dies in Zusam- 
menhang mit den eingangs dargestellten deduktiven, induktiven und abduktiven 
Forschungszugängen, so zeigt sich wie unterschiedlich jeweils der Umgang mit 
den Kategorien ist. In deduktiv angelegten Forschungen werden die Annotationen 
anhand von bekannten Strukturmerkmalen vorgenommen, so dass auf existie- 
rende Regelwerke, Taxonomien oder Vokabularien zurückgegriffen werden kann. 
Annotationen kónnen hier produkt-orientiert als ein Ergebnis bestehender Regel- 
werke verstanden werden, in denen die zugeordneten Kategorien nicht verándert 
werden und es vorrangig um die korrekte Zuordnung dieser zu Textabschnitten 
geht. Dies ist bei induktivem und abduktivem Forschen in der Form nicht móglich, 
da vorgegebene Regelwerke die untersuchten Gegenstände (noch) nicht abbilden 
und es folglich darum geht, bisher nicht erforschte Aspekte zu betrachten, diese 
genauer zu spezifizieren und in bestehendes theoretisches Wissen einzuordnen 
(induktiv) oder auch gänzlich neue Theorierahmen zu schaffen (abduktiv), die 
die Gegenstände angemessen abbilden. Annotationen sind hier prozess-orientiert 
für die Bildung von Kategorien zu verstehen, in denen das Wissen über diese Ka- 
tegorien und deren Relationen untereinander stetig erweitert und vertieft wird. 
Erst am Ende des Forschungsprozesses lassen sich Kategorien in Regelwerke fas- 
sen und in der Folge in der bestehenden Form Textstellen zuweisen. Wenn dieses 
Stadium erreicht ist, spricht die Grounded Theory von theoretischer Sättigung. 
Der Forschungsgegenstand ist soweit verstanden, dass sich keine neuen Aspekte 
zeigen und eine theoretische Strukturierung vorgenommen werden kann. Damit 
sind dann produkt-orientierte Annotationen möglich. 

Die Spezifika der beiden unterschiedlichen Varianten des Annotierens im Hin- 
blick auf die Strukturierung von Texten zeigen sich gut bei der Gegenüberstellung 
im Vier-Felder-Schema (Abbildung 1 auf der nächsten Seite). 
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Computerlinguistik Kulturanthropologie 
(Automatisches Annotieren als (Manuelles Annotieren als 
überwiegende Arbeitspraxis) überwiegende Arbeitspraxis) 
Feld 1 Feld 2 
* Wortfeldbasierte Annotationen * Annotationen als Produkt stehen erst am Ende 
* POS-Annotation des Kernkorpus für weitere des Forschungsprozesses, wenn das Forschungs- 
Analysen feld vollstándig durchdrungen und die Kategorien- 


entwicklung abgeschlossen ist. 

* Darüber hinaus technische Unterstützung 
zur Identifikation von relevanten Texten bzw. 
Textstellen im Sinne von Vorselektionen/ 
Filterungen für relevante Analyseeinheiten 


* Lemmata 
* Syntaktische Annotationen 


Produkt-orientierte 
Annotationen/ 
feststehende Kategorie 


= Feld 3 Feld 4 

“2 Vorgang des automatischen Annotierens für den * Annotation zur Kategorienbildung durch offene, 
£ SA Menschen nicht einsehbar bzw. nicht erkenntnis- selektive und axiale Annotationen nach Grounded 
E ç E generierend; manuelles Nachjustieren von Theory 
5 S = Annotationen bei Mehrdeutigkeiten notwendig * Nutzung von Mehrdeutigkeiten zur Wissens- 
S zz Überprüfen und Korrigieren der automatische produktion, zum Verstándnis der verschiedenen 
^ 5 w generierten Annotationen Deutungshorizonte und der Komplexität im Feld 
es E53 oœ Analyse der Korrekturen im Hinblick auf e Annotationen auf Metaebene zur Reflexion des 
£ x 3 Optimierungspotentiale Forschungsprozesses und der Kategorienbildung 

E * Optimierung der automatisch generierten (Memos) 

wi Annotationen soweit möglich 


Abb. 1: Vier-Felder-Schema zu Annotationen in Computerlinguistik und Kulturanthropologie sowie 
Annotationen als Strukturierungsleistungen 


Das Vier-Felder-Schema zeigt in der Übersicht die spezifischen Strukturierungs- 
leistungen von Annotationen auf der Basis von feststehenden Kategorien und mit 
sich verändernden, zunehmend spezifischer werdenden Kategorien. Dabei ist über 
das Schema hinaus zu berücksichtigen, dass diese Kategorien im Zusammenhang 
von Theoriebezügen eingesetzt werden, also in deduktiv, induktiv und abduktiv 
angelegten Forschungszugängen mit spezifischen Methodologien verknüpft sind. 
Es zeigt sich, dass Formen der Annotation in beiden Disziplinen und damit in 
sehr unterschiedlichen methodologischen Kontexten eingesetzt werden und dem- 
entsprechend auch unterschiedliche Verwendung im Erkenntnisprozess finden. 
Während feststehende Kategoriensysteme eine Schlüsselstellung in der computer- 
linguistischen Wissensproduktion haben, kommen diese im kulturanthropologi- 
schen Forschungsprozess erst vor, wenn der eigentliche Annotationsprozess endet. 
Sie sind Indikatoren dafür, dass das Erkenntnisziel der Forschung erreicht ist, 
eine theoretische Durchdringung des Forschungsgegenstandes gelungen ist und 
Ergebnisse zur Forschungsfrage vorliegen. Auch als Filter für die Identifikation von 
zu analysierenden Textelementen können sie unter bestimmten Voraussetzungen 
hilfreich sein (vgl. Koch und Franken 2020). Die Entwicklung von Kategorien steht 
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somit im kulturanthropologischen Erkenntnisprozess im Mittelpunkt, ist aber auch 
ein wesentliches Element in computerlinguistischen Forschungen, wo diese mit 
maschinell noch nicht bearbeitbaren Mehrdeutigkeiten zu tun haben und deshalb 
manuelle Annotationen entwickeln müssen. 


5 Fazit und Ausblick 


Der Beitrag betrachtet linguistische und kulturanthropologische Annotationen 
im Hinblick auf ihre Verwendung in Forschungsprozessen von den jeweiligen Dis- 
ziplinen. Diese stehen im Kontext von deduktiven, induktiven und abduktiven 
Zugängen zur Annotation, die durch unterschiedliche Verwendung von theore- 
tischen Bezügen gekennzeichnet sind. Dementsprechend werden Annotationen 
in spezifischer, dem Forschungszugang entsprechender Weise eingesetzt und er- 
bringen ganz unterschiedliche Strukturierungsleistungen im Erkenntnisprozess. 
Im Vier-Felder-Schema zeigen sich diese Spezifika und auch die unterschiedliche 
Einbettung der beiden Annotationsweisen in den jeweiligen Forschungsprozes- 
sen in Computerlinguistik und Kulturanthropologie. Auch wenn die disziplinären 
Spezifiken unübersehbar sind, sind damit auch Schnittstellen und Perspektiven 
erkennbar, wo der jeweils relevante Modus der Annotation aufgegriffen und weiter 
fruchtbar gemacht werden kann. 

Ein weiterer zentraler Punkt, auf den hier nur am Rande eingegangen werden 
konnte, ist die Rolle von Ambiguitäten im Prozess des Annotierens, die auch für die 
produkt-orientierte Annotationen eine entscheidende Rolle spielt: In unterschied- 
lichen Dimensionen müssen Vagheiten und Mehrdeutigkeiten aufgelóst werden, 
um zu entscheiden, welche Textteile (egal ob einzelne Begriffe oder langere Pas- 
sagen) annotiert werden und in wie weit mehrere Perspektiven auf den Text in 
der Annotation abgebildet werden kónnen. Diese Frage wird uns ebenso wie die 
Potentiale der Automatisierung von manueller Annotation weiterhin bescháftigen. 
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Joseph S. Freedman 

Footnotes (as Annotations) in Historical 
Context and Their Relevance for Digital 
Humanities in Our Time 


Abstract: This chapter focuses on early uses of footnotes (as one category of an- 
notations) in Central Europe during the second half of the seventeenth century. 
Attention is also accorded to what can be regarded as an institutional context for 
these early footnotes: the precursors of the Humanities (mainly: Ancient Languages 
and Literatures) as well as the roles of academic disciplines and interdisciplinarity 
at Central European academic institutions during the sixteenth and seventeenth 
centuries. That institutional context is used to call attention to issues pertaining to 
(inter-)disciplinarity in our time and the relevance of these issues to collaboration 
between colleagues in the Humanities and the Digital Humanities. Mentioned is 
the possibility that innovative uses of footnotes (often along with other forms of 
annotations) during the late seventeenth century by little known authors might 
serve as a catalyst for innovation in the Digital Humanities. 


Keywords: Practice Theory, Footnotes, Form, Academic Disciplines, History 


Footnotes! began to be used in Europe used by authors of published writings 
by no later than the year 1649.? Footnotes can be said to have an affinity to the 
far older marginalia? and some authors used footnotes together with marginalia 
during the second half of the seventeenth century. Discussion of the connection 
between footnotes (as annotations) and Digital Humanities will begin here with 
discussion of [i.] the origin of the Humanities as an academic area of study (and 
the concurrent emergence of Philosophy/Arts academic disciplines at European 


1 What is understood here as footnotes is discussed in the text corresponding to footnote 20. Since 
many of these seventeenth-century publications lack page numbers, the front and back sides of 
individual leaves are referred and the abbreviation “r” (= recto, front side) and “v” (= verso, back 
side), respectively. “Fol.” (= folio) is used to refer to the individual leaves. 

2 Refer to the brief discussion of Johann Theill in the paragraph corresponding to footnotes 23 
and 24. 

3 To give one such example here, marginalia as well as other forms of annotations (but no 
footnotes) are well represented in Eckius (1517). 
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universities, with a primary focus on Central Europe) as well as [ii.] the origin of 
footnotes themselves. 

Academic instruction at medieval universities generally was held within four 
faculties: [i.] the Arts faculty which generally provided instruction that prepared 
students for the study of [ii.] the three higher faculties (Jurisprudence, Medicine, 
and Theology).^ Referring more specifically to Central European universities in the 
fifteenth century, the subject-matters generally taught in the Arts faculty — gram- 
mar, rhetoric, logic, ethics, family life (oeconomica), and politics, mathematics 
(arithmetic, geometry, music, astronomy, and optics), physics, and metaphysics 
— were synonymous with philosophy and were generally taught in an interdisci- 
plinary manner by the teachers in the Arts faculty.^ 

In the early sixteenth century some of these arts (philosophy) subject-matters 
became academic disciplines. Those subject matters which did not become aca- 
demic disciplines were generally removed from or deemphasized within Arts fac- 
ulty curricula.° Concurrent thereto, encyclopedic philosophical writings generally 
ceased to be published in Central Europe by the third decade of the sixteenth 
century.’ 

A major catalyst of these changes was the introduction from the beginning 
of the sixteenth century onwards of what can be understood as the precursors of 
the Humanities, then often referred to using Latin terms that included humani- 
tas/humanitatis, humaniores, and politiores. These precursors were ancient lan- 
guages (Latin, Greek, and Hebrew) and literatures.? The study of History also was 
introduced at some universities in the course of the sixteenth and seventeenth cen- 
turies.? However, while these ancient languages and literatures served as catalysts 


4 Refer to the relevant sections in Boer et al. (2018) (as well as to further literature cited therein). 
5 To give one example here, sources that document the interdisciplinarity of the curriculum in 
the University of Leipzig Arts Faculty during the fifteenth century are published in Zarncke (1861). 
Refer also to following general survey of late medieval arts/philosophy curricula in Central Europe: 
Overfield (1984). 

6 Usually removed were metaphysics and optics; family life (oconomica) and politics were gener- 
ally either removed or were discussed within the content of ethics. Grammar, music, and arithmetic 
were usually moved to lower level curricula. Refer to Freedman (1985, 1994b) as republished in 
Freedman (1999), respectively. 

7 As discussed in Freedman (1994b). 

8 Concerning the introduction of Hebrew into academic curricula both in and beyond Central 
Europe refer to Burnett (1500-1650) 

9 This included the study of ancient Roman historians (for example: Livy). See the very useful 
summary discussion of the introduction of History as an academic subject-matter in Huttner (2007) 
(as well as further literature cited there). 
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for the advent of disciplinarity in Arts faculties, they were themselves not regarded 
as academic disciplines.!? 

Almost all of the academic disciplines taught at universities today have their 
origin, in whole or in part, in the subject matters (Philosophy/Arts, Ancient Lan- 
guages, and History) taught at sixteenth- and seventeenth-century Arts faculties.™ 
In the course of these two centuries individual Arts faculties gradually were re- 
named as philosophy faculties.” After the introduction of Ancient Languages and 
Literatures as well as History, new fields of study began to emerge in Central Eu- 
ropean academic institutions during the course of the late sixteenth century and 
with greater frequency after 1600.3 Encyclopedic philosophical writings began to 
be published again roughly beginning at the outset of the seventeenth century.“ 

But in the course of the early seventeenth century these new fields of study 
were organized into disciplines and sub-disciplines. This also included the creation 
of the academic discipline of Gnostology (gnostologia) in the 1630s, which included 
all of these older and newer academic subject-matters and apparently was intended 
to serve as a gatekeeper for the sake of disciplinarity.'^ But ancient languages 
(Latin, Greek, and sometimes Hebrew) and literatures continued to be taught — 
apparently without being regarded as academic disciplines - through and beyond 
the seventeenth century.!® 

Academic disputations, which were also referred to (among additional terms) 
as dissertations, increasingly were used during the seventeenth century in Central 


10 Literature is not included in any of the classifications of philosophy, the arts, or the sciences 
that are discussed or cited in Freedman (1994a) as reprinted in Freedman (1999). 

11 As an exception to this are Jurisprudence, Medicine, and Theology, which have been represented 
within university curricula since the middle ages. 

12 When and how this name changed varied from university to university during the course of 
these two centuries. Concerning this change at the University of Vienna refer to Meister (1958). 
13 Mentioned here are the examples of Psychology (psychologia) and the Studies of Antiquities 
(Studium antiquitatis) mentioned - within classifications of Philosophy (1576) and the Arts (1582), 
respectively — by Johann Thomas Freigius; these classifications are presented and discussed in 
Freedman (2016b). 

14 This is discussed at length in Freedman (1994b). 

15 Some discussion of disciplinarity as well as interdisciplinarity during the early seventeenth 
century is provided in Freedman (2009). 

16 Examples of this continuing instruction in ancient languages and literatures at academic 
institutions are found the announcements of instruction to be held at the University of Leipzig 
between 1683 and 1753 (Leipzig University Archive, Rep I/IX, Nr. 1), the University of Salzburg 
between 1629 and 1745 (Salzburg University Archive, bA 154) and at the Bremen schola illustre 
between 1638 and 1800 (Bremen State Archiv, multiple shelf marks). This instruction took place at 
the University of Salzburg within lower level curricula, in Leipzig at the university level, and at 
the Bremen school at both the pre-university and the university levels. 
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Europe as publications in which interdisciplinary (and new) subject-matters could 
be discussed." While they were held orally [i.] as academic exercises as well as 
[ii.] in connection with the awarding of academic degrees, they generally began to 
be published beginning in the mid-sixteenth century and in increasing quantities 
thereafter in Central Europe. Originally intended mainly for internal institutional 
use, they began to be used by broader audiences in the seventeenth (and especially 
after the mid-seventeenth) century; some of them also began to be republished.1® 

Published disputations also served as a medium for the use of footnotes by no 
later than the second half of the seventeenth century. Here footnotes will be under- 
stood as follows. Footnotes are to be distinguished from other forms of annotation 
insofar as [i.] they are always placed at the bottom portion of individual pages of a 
text, [ii.] they are arranged in numerical order, in alphabetical order, or (occasion- 
ally) in numerical order but with the use of symbols in lieu of letters or numbers? 
and [iii.] where each individual number, letter, or symbol in the footnotes matches 
the use of that same number, letter, or symbol with its corresponding term or text 
passage within the upper portion of that same page.?? 

As a preface to following examples of publications containing footnotes, the 
following three points must be noted. First, no claim is made here that the publica- 
tions discussed here are in fact the very first ones that contain footnotes.?! Second, 
the principal *method" that apparently must be used to search for early uses of 
footnotes can be described as simple but under no circumstances as easy. One must 
look through large quantities of individual published writings in which footnotes 
may or not have been used, but also to look for clues as to which categories (broadly 


17 Here no distinction is made between the terms disputation and dissertation as used prior to 
the eighteenth century; refer to the discussion presented in (and literature cited within) Freedman 
(2010). Concerning the use of published disputations to introduce new ideas refer to the brief 
discussion in Freedman (20163). 

18 Here the example of Thomasius (1667) - republished as Thomasius (1672) - is given. Concerning 
differences in the contents of these two editions refer to the comments in footnote 35. 

19 Refer in footnotes 53 and 54 to two examples of late-seventeenth century publications that use 
“numerically” ordered footnotes containing symbols in lieu of letters or numbers. 

20 Although not specifically so stated, this apparently corresponds to what is referred to as the 
*modern footnote" in Grafton (2009). However, in individual cases it happened (and still does 
happen) that a footnote that beginning on one page continuing on the following page. One category 
of annotations, which is regarded here to use “notes” rather than “footnotes” (as understood here) 
is briefly discussed in footnote 35. 

21 In this connection refer to the Addendum to the text in one of my own publications where 
late seventeenth-century published disputations (beginning from the year 1667 in which Adam 
Rechenberg participated) containing footnotes were discussed; in that Addendum I note my own 
belated discovery of Johann Theill’s publications (dating from the year 1649) in which footnotes 
were used. The Addendum is in Freedman (2016a, 39). 
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and narrowly understood) of publications might be accorded closer attention in 
the search process.?? And third, the search for publications containing footnotes 
has been limited here to writings published in Central Europe.?? 

The earliest examples of footnotes found here are within academic publica- 
tions that were not academic disputations, but can best be described in English 
as programmatic academic writings (Programmatische Schriften) published by 
Johannes Theill beginning in the year 1649. In the course of his career (1642-1678) 
as rector of a school in Bautzen, he published 372 of these writings (which were 
numbered in the order of their publication?^), most of which highlighted declama- 
tions (to be) presented orally by one or more Bautzen students on a wide range of 
topics.” 

Here discussion of Theill’s use of footnotes - together with his use of marginalia 
- is limited to his numbered publications (25 through 46) that appear in the years 
1649, 1650, 1651 and 1652.?° Footnotes are not used in 9 of these 22 publications.?7 
Of the remaining 13 publications, the footnotes in 9 of them use Greek letters in 
alphabetical order while footnotes in the remaining 4 use (Arabic) numbers placed 


22 Many of the writings containing footnotes discussed here [i.] were published within disputa- 
tions and/or [ii.] were published in Altdorf, Jena, Kölln (in present day Berlin), or Leipzig. 

23 For this reason the use of annotations in Bayle (1697) are not accorded attention here; refer to 
the discussion thereof (and the citations of relevant literature) in Grafton (2009), Chapter 7. It is 
possible that footnotes were used in writings published prior to the year 1649 outside of Central 
Europe. 

24 The entire collection of these programmatic publications by Theill is extant at the Bautzen 
Municipal Library (shelf marks: 20,80 420-421), the first 42 of which are numbered there in 
pencil on their title pages. From 43 onwards (with the exception of 46) the numbers of all of these 
programmatic writings are provided in print on their title pages. A relatively small portion of his 
publications, however, are not included in his own numerical listing. A very useful discussion of 
Johann Theill and his years as Rector in Bautzen is found in Needon (1911). 

25 One example thereof - in Figures 1, 2 on the following page, and 3 on page 115 - is Johannes 
Theill's programmatic publication No. 27 from the year 1649. Six unnamed students (Sex Adoles- 
centibus) are mentioned on its title page (Figure 1). The names and contributions of each of these 
six students are listed on its final page, fol. (6)v, of this publication (Figure 3). Oral presentations 
by Bautzen students are highlighted in all 22 of the programmatic writings published by Johann 
Theill during the years 1649, 1650, 1651, and 1652 that are discussed here. With regard to Figure 2 
refer to footnote 31 as well as to footnote 28. 

26 The numbered publications from these four years have the following number sequences: 1649 
(25 through 28), 1650 (29 through 33), 1651 (34 through 39) and 1652 (40 through 46). All of these 
publications (except for 43, 44, and 45) are enclosed in square parentheses because their numbers 
are not printed on their title pages. 

27 These nine publications without footnotes are Theill: [31], [33] through [38], [40], and [41]. 
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Fig. 1: - see Figure 3 - Fig. 2: — see Figure 3 - 


in numerical order.?? The number of footnotes in these individual publications 
by Theill ranges from 2 to 77.?? Some of the footnotes in his publications contain 
citations, annotations, or both; some contain lengthy explanatory information 
while others do not.?? 

Some of Theill's publications containing footnotes also contain marginalia. 
Others contain marginalia but no footnotes. Some of these marginalia in his publi- 
cations are labelled using a series of letters and/or numbers and/or are hierarchi- 
cally arranged and/or which serve to outline content in the text.?! 

Among the earliest disputations known to date which were utilized footnotes 
were published beginning in the 1660s.?? Discussed elsewhere is a series of 47 
dissertations which Adam Rechenberg, a professor at the University of Leipzig, 


28 Footnotes are labelled in alphabetical order (using Greek letters, in Theill: [25], [27], [28], [32], 
[39], [42], 44, 45, and [46]; footnotes are labelled in numerical order in Theill: [26], [29], [30], and 
43. 

29 There are only 2 footnotes in 44 Theill (1652), 3r and 77 footnotes in [32] Theill (1650). The 
length of these individual 22 publications ranges from 4 leaves to 8 leaves. 

30 Some lengthy explanatory footnotes are found within Theill: [29], [30], [32] [42], and 44. 

31 See Theill: [27] (and Figure 2), [32], [34], [35], [37], [38], and 43. 

32 The earliest published disputation found here in which footnotes are utilized is Felwinger 
(1661). 
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Fig. 3: Theill, Johannes: Ad oratiunculas scholasticas latinas De angelorum officiis & praesidiis 
a sex adolescentibus scholae evangelicae Busiddinae ad diem crastini habendas, (Mense 
Septembri labente 1649 Gorlitii excudebat Martinus Herman.) [München BSB: Res/4 L. eleg. m. 
250.51: digitally accessible] 

This publication is numbered in pencil (on the title page in the copy thereof at the Bautzen 
Municipal Library) as (Theill’s programmatic publication No.) 27. Figures 1, 2 on the facing 
page, and 3 present three pages from this third publication by Johannes Theill known to contain 
footnotes. 

It consists of 6 leaves (or: 12 pages), which are leaves (1) through (6). The title page is on recto 
(the front side) of (1) while verso (the back side) of (1) is empty. Leaves (2) recto through (6) recto 
contain the text of this publication, which consists of 264 lines of verse, numbered (in increments 
of 10 lines) in the left margin of the recto pages and in the right margin of then verso pages. 
Conversely, marginalia text is provided on the right margin of recto pages and the verso numbers 
on the left margin of verso pages. Beginning on (2) verso and ending on (5) recto the eight 
marginalia found there are numbered as (1) through (8). 

Thereafter the marginalia continue on (5) recto with a text (ita hodie similiter) followed on 5 
(recto) and 5 (verso) by eight marginalia — the numbers (1) through (8) — without text. 

Figure 1is the title page of this publication. Theill is identified as the Rector of the Evangelical 
(here: Lutheran) School in Bautzen. Also mentioned is that six students (Sex Adolescentibus) at 
the school will be making oral presentations on the following day. The friends and benefactors of 
the school are invited by Theill to be in attendance. 

Figure 2 presents leaf (5) recto thereof, as described above. 

Figure 3 presents the final page - (6) verso - of this publication. It lists the six students referred 
to on the title page as presenters of orations, together with very brief mentions of the topics to be 
presented therein. The publication date (the month of September 1649), the place of publication 
(Görlitz) and the printer are mentioned at the bottom of this final page. 
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participated in (almost always as presider) between the years of 1667 and 1685.3 
Of these 47 disputations, 27 (published in the years 1670, 1672-1673, 1674-1679, 
and 1684) do not contain footnotes.?^ Of the 27 disputations without footnotes two 
contain marginalia and a third disputation contains notes at the conclusion of its 
introduction as well as at the conclusion of many of the individual 38 paragraphs 
that constitute its text.” 

Within the 20 disputations (of the 47 in which Rechenberg participated) that 
contain footnotes, 14 are numbered, 3 of them are lettered (using Latin letters, Greek 
letters, or combinations of both), and 3 of them are both lettered and numbered. 
In some of these disputations, an asterisk (*) or a cross (t) is interjected between 
one or more their letter and/or number sequences.?6 Eight of these disputations 
with footnotes also contain marginalia, some of which are numbered or both 
lettered and numbered.?/ Some of these disputations contain footnotes that are 
explanatory. 38 

The full extent to which disputations containing footnotes that were published 
prior to the eighteenth century may never be known. Here 23 additional writings 
(including disputations) containing footnotes published between 1661 and 1700 


33 Freedman (2016a, 15-20) (text, with four illustrations), 45-47 (Table E, disputations A through 
Z), 66-70 (Bibliography); only disputantions E, D, I, and M is Rechenberg not listed as its presider. 
Not included among these 47 disputations is Rechenberg (1668) which is cited in Part 2 of the 
Bibliography; brief discussion of this 48th disputation is provided together with the page (C1 recto) 
therefrom in Figure 4 on the facing page. All 48 of these disputations are digitally accessible. 

34 These disputations without footnotes are listed in Freedman (2016a, 45-47) (Table E: H, J, O, 
[13], P, Q [-16], T 1-3], Y [1-2]) and cited there on pp. 66-70. 

35 Freedman (2016a, 46) (Table E: J). The following additional publications — Reeb (1625), and 
Thomasius (1667, 1672) — cited in Part 3 of the bibliography - have “notes” are appended to 
individual segments of their respective texts. These notes are alphabetically ordered and also 
correspond to those same letters in the text. But they are not classified here as footnotes because 
they appear anywhere that on the page (and not necessarily in the bottom segment of all pages, 
as is the the modus with footnotes today) immediately following where their corresponding text 
segments end. Thomasius (1667) was republished as Thomasius (1672). The content of the text 
(81 through 882) and the corollaria (1 through 9) were identical in both. However, Thomasius 
(1672) contains numerous marginalia (some of which are numbered) while Thomasius (1667) does 
not contain any. The final page (D4v) of Thomasius (1667) contains verse by two authors (the 
second of which written on VI. Id. Jan. 1667); this final page in Thomasius (1667) is not included in 
Thomasius (1672). 

36 Freedman (2016a, 45-47) (Table E: B, C, E, L, M, R, U, V, W). This is also the case on fol. Cir 
(presented in Figure 4 on the next page) in a disputation that was presided over by Rechenberg 
(1668). This same disputation, Rechenberg (1668) is also mentioned in footnotes 33 and 52. 

37 Freedman (2016a, 45-46) (Table E: C, D, E, F, H, I, P). 

38 Freedman (2016a, 45-46) (Table E: B, D, E, F, I). 
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Fig. 4: Rechenberg. Adamus (praes.) and 
Drechssler, Johannes Gabriel (autor & 
resp.): De spectris, incl. facult. philosoph. 
annuente ... publice disputabit d. 11. Martii 
1668 ... H.L.Q.C., Lipsiae: Literis Johannis 
Erici Hahnii. [Augsburg SStB: Diss Phil 
1086: digitally accessible] 

This disputation on apparitions (De spec- 
tris) was scheduled to be held publicly 
under the auspices of the Philosophy 
Faculty (of the University of Leipzig) on 
March 11, 1668; its text is printed on pages 
A2 recto through C1 recto thereof and is 
followed (on pages C1 verso through C2 
verso) by 19 corollaries (Corollaria). 

Figure 4 presents the final text page 
thereof (C1 recto). A footnote labeled 

as * follows footnote (102) and precedes 
footnote (103). A footnote labeled as t 
follows footnote (103). 


(and listed in Part 2 of the Bibliography) are accorded discussion.?? They range in 
length from 2 leaves to 34 leaves and each contains between 7 and 442 footnotes.^? 

Many of them contain explanatory footnotes.*! A few contain marginalia in 
addition to footnotes.^? 20 of these 23 publications were published in connection 
with an academic institution. The remaining three are 1. a marriage sermon, 2. a 
funeral sermon, and 3. a short treatise on antiquities in the Roman city of Mainz. 

Of these 20 academic publications, 12 are disputations: 11 were for practice 
purposes while the 12th was published in conjunction with the requirements for 
a Doctor of Jurisprudence degree.^* Three are academic orations; a fourth was 


39 Rechenberg (1668) is included within the 23 publications listed here 

40 Nagel (1680) contains 2 leaves and 8 footnotes while Berling (1700) contains 34 leaves and 
132 footnotes Lessus (1680) contains 7 footnotes (all found within the verse of a single student) 
and 6 leaves while Schmid (1673) contains 442 footnotes and 14 leaves. 

41 Refer, for example, to lengthy explanatory footnotes in Rivinus (1672) and Facultatis philo- 
sophicae decanus (1694). 

42 Drechssler (1670, 1673), Stübelius (1686), and Hochstetter (1697). 

43 1. Engelmann (1678), 2. Nagel (1681), 3. Blumberg (1690). Fol. A4r in Blumberg (1690) is pre- 
sented in Figure 5 on the following page. 

44 The practice disputations are Felwinger (1661), Hoffmann (1670), Drechssler (1670, 1673), 
Rivinus (1672), Schmid (1673), Neumann (1684), Gellius (1689), and Hebenstreit (1693); the degree 
disputation is Scharfius (1671). 
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Fig. 5: Blumberg, Christianus Gotthülff: 
Neronis Claudii Drusii Germanici monu- 
mentum moguntiae obvium ... die d. 6. Jan. 
1690 ... , Schneebergae, Praelo Pfütznaeri- 
ano. [München BSB: 4 Diss. 277#Beibd. 6: 
digitally accessible] 

This publication on Mainz antiquities 
during the Ancient Roman period appar- 
ently does not have any direct connection 
with an academic institution. Figure 5 
presents leaf A4r thereof, which includes 
footnotes 5, 6, 7, and 8 (three of which 
contain explanatory text, including verse in 
footnote 6) of the 88 footnotes found with 
the text (leaves A2 recto through D1 verso) 
of this publication. The text is followed by 
an additional segment (leaves D2 verso 
through D3 verso) containing 8 additional 
footnotes, labeled 1 through 8. 


published in conjunction with a ceremony for the awarding of 46 Master of Arts 
degrees.“ One was published by a “designated” professor.*° Three other publi- 
cations contain the following: 1 a marriage sermon by the Rector of a school in 
Kölln (Brandenberg), 2. verse by students on occasion of the death of a (fellow) 
student (apparently at that same school), and 3. verse written by multiple authors 
in a congratulatory publication edited by the rector of a school in Annaberg.^ 
The footnotes in 5 of these 23 publications are listed in numerical order.^? In 8 
of them their footnotes are listed in alphabetical order using Latin letters, Greek 
letters, or both.^? Not included in these 8 publications using letters are 4 additional 


45 These academic orations are Herbst (1674), Hochstetter (1697), and Stübelius (1698); this degree 
ceremony publication is Facultatis philosophicae decanus (1694). 

46 Schmidt (1695) 

47 1. Bódiker (1680), 2. Lessus (1680), 3. Stübelius (1686). This publication by Bódeker (1680) 
is considered here as *academic" assuming that it pertains, directly or indirectly, to his duties 
and/or status as a school Rector. 

48 Rechenberg (1668), Drechssler (1670, 1673), Herbst (1674), Blumberg (1690). 

49 Latin letters are used in Hoffmann (1670), Rivinus (1672), Bódiker (1680), Nagel (1681), Gellius 
(1689), Hebenstreit (1693), Facultatis philosophicae decanus (1694), and Stübelius (1698); Greek 
letters are used in Engelmann (1678) while both Latin and Greek letters are used in Schmid (1673). 
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ones were the footnote sequence therein begins again with the letter *a" on each 
new page°° or in each new chapter.°! 

In two of these 23 publications asterisks and crosses are interspersed between 
letters or in between numbers in the footnotes. A third publication has footnotes 
containing letters along with a single asterisk. And in two further publications 
footnotes are denoted without the use of any letters or numbers: one of them does 
so using one or more asterisks*? while multiple asterisks and multiple crosses are 
used in the other one.5^ 

On the basis of this discussion of the use of footnotes in Central European 
writings published in Central Europe between the years of 1649 and 1700, the 
following summary and concluding comments can be made here. First, Johann 
Theill began to use footnotes in his programmatic publications appearing no later 
than the year 1649, but he did not use them consistently thereafter through the 
year 1652. He sometimes used them [i.] without marginalia or [ii.] together with 
marginalia. He also sometimes used marginalia without using footnotes. Theill 
was apparently focused primarily on providing annotations in many (but not in all) 
of his programmatic publications; (what we generally refer to today as) footnotes 
was one but not the only format that could be used for that purpose during the late 
seventeenth century.” 

Second, with regard to the use of footnotes within academic disputations pub- 
lished between 1667 and 1685 in which Adam Rechenberg participated, footnotes 
were used consistently between 1667 and 1671 but not thereafter. In some cases 
footnotes were used together with marginalia while elsewhere marginalia were 
used without footnotes. Footnotes were not used consistently nor were they the 
only form of annotation utilized. 

Third, on the basis of the additional examples of writings published in Cen- 
tral Europe published prior to the year 1700 discussed here the following two 


50 Felwinger (1661), Hoffmann (1670), and Schmidt (1695). 

51 Bierling (1700) 

52 Asterisks and crosses are interspersed between numbers in Rechenberg (1668) and between 
letters in Scharfius (1671). 

53 Hochstetter (1697). With the exception of [i.] on his page 26 and [ii.] the continuation of two 
footnotes onto a second page, the first new footnote on each new page is designated with a single 
asterisk. The highest number of footnotes on any of his pages is four (on page 10), which are 
designated there as *, **, ***, and ****, 

54 In Stübelius (1686) in verse by Johann Jacob Stubelius uses 7 footnotes with asterisks (labeled 
* through *******) on fol. A2r and then uses 3 footnotes with crosses (labeled t through ttt) on 
fol. A2v. 

55 Ananalogous point is made (with regard to the use of annotations in Bayle [1697]) in Grafton 
(2009, 214) 
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hypotheses can be presented. 1. While the bulk of these publications were aca- 
demic, footnotes were used in an unknown quantity of non-academic publications 
as well. 2. While published academic disputations appear to have been an impor- 
tant medium for the use of footnotes during the final quarter of the seventeenth 
century, the extent of that importance - in and beyond Central Europe - has yet to 
be determined.°° A much larger sample of seventeenth (and possibly eighteenth) 
century publications containing footnotes than the sample provided here would 
be needed in order to examine these two hypotheses. 

And fourth, and with respect to all of the seventeenth-century publications 
containing footnotes that have been discussed here, they were not designated 
nearly so uniformly as they are in more recent times. While some authors denoted 
their footnotes using numbers, other authors used letters — Latin letters, Greek 
letters, or combinations of both. Within some their publications an asterisk or a 
cross was placed in footnotes between individual letters or numbers. And in a 
few of them footnotes are designated solely with the use of one or more asterisks 
and/or crosses. 

The history of the evolution of footnotes from (no later than) the mid- 
seventeenth century to the present has not been studied. The same is true with 
regard to the evolution of the humanitas subject-matters from the early eighteenth 
century onwards to what are known as the Humanities today. But the following 
three comments will be ventured here.’ First, languages and their literatures 
are still taught to this date, and “Literature” still can be understand broadly to 
include many subject-matters. Second, Philosophy, which was taught side-by-side 
with humanitas/humaniores into the eighteenth century, is virtually always in- 
cluded within the Humanities today. And third, History apparently was not clearly 
included within the realm of humanitas/humaniores during the sixteenth and 
seventeenth centuries; to this day, History is sometimes considered as falling 
within the Humanities, within the Social Sciences, or to some extent within both.5^8 

The arts/philosophy subject-matters that were organized into disciplines and 
sub-disciplines in the sixteenth and seventeenth centuries have evolved (in whole 
or in part) into almost all of the academic disciplines and fields in present-day 


56 Should sucha study be undertaken and possibly be expanded to include the eighteenth century, 
the following point is mentioned here. Academic disputations/dissertations were published in 
substantial quantities in some European regions (for example, in Central Europe and Scandinavia) 
by not in some other parts of Europe during the seventeenth and eighteenth centuries. 

57 Here the following publication can be cited here: Summit (2012). 

58 To briefly give two examples here, History is placed within the Humanities at Stanford Univer- 
sity (http://www.shc.stanford.edu, accessed on December 12, 2019). But the use of Social Science 
methods is evident in many or most of the articles published in the journal Historical Methods. 
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academic institutions.*?? In the course of recent decades these disciplines and fields 
have increasingly begun to exist side-by-side with interdisciplinary programs, 
field, and research groups. These disciplines and fields normally have theoretical 
frameworks (including presuppositions and terminologies) that can set rough 
parameters for research topics and methodologies that fall within the scope of 
those frameworks. 

Such frameworks promote research but can also serve to isolate individual 
disciplines and research fields from one another. One example of such potential 
isolation — to be discussed briefly here - is the connection between the Humani- 
ties and the Digital Humanities as well as general attitudes of both to the use of 
annotations. The following two points can be made in this context. 

First, one could argue (beginning with the creation of hypertext) that digital 
technology provides excellent parameters for the use of annotations (and footnotes) 
that complement texts. While the use of annotations is widely accepted within the 
context of Digital Humanities,” this is not fully the case within the Humanities. 
Some Anglo-American journals and publishers, for example, do not allow the use 
of footnotes (and of some other forms of annotations); linear prose narrative is 
preferred instead. This is in spite of the fact that the advent of digital technology 
has effectively reduced the cost of including footnotes within publications, which 
in pre-digital times could serve as a valid financial reason for the use of endnotes 
in lieu of footnotes. 

Second, for all its virtues, Digital Humanities has adopted theoretical frame- 
works, research methods, and terminology that many Humanities academics can- 
not understand without difficulty (and sometimes also not without extended study). 
It can be surmised that at least some Humanities academics do not have positive 
perceptions of Digital Humanities. However, Digital Humanities academics might 
be able to forge working relationships with some their Humanities colleagues by 
opening up lines of communication where (at least initially) less complex concepts 
and terminology are utilized. 


59 Excluded from the above are Jurisprudence, Medicine, and Theology, all of which have their 
origins in medieval universities. 

60 Including among such research groups having interdisciplinary foci are the SFB (Sonder- 
forschungsbereiche) currently active at individual German universities. A useful discussion of the 
views of proponents of academic disciplines vis-á-vis the views of advocates for interdisciplinarity 
is the Introduction (titled: Discipline and Freedom) by the editors Anderson and Valente (2002). 
61 For example, refer to the following: “Digital technology often gives us the chance to re-conceive 
common scholarly practices with the humanities, and one of these is the practice of annotation." 
Bradley (2012), Abstract (first two lines). Also see *Free Annotation" in Digital Humanities Work- 
bench (https://www2.fgw.vu.nl/www/werkbanken/dighum, en [accessed on December 11, 2019]). 
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Many of these Humanities colleagues may well have good reason be interested 
in such collaboration for the sake of their own students, most of which will not be 
able (or may not wish) to pursue careers within academia. Students with digital 
technology (here: broadly conceived) knowledge and abilities are of increasing 
interest to many employers outside of academia. Partnerships between Humanities 
and Digital Humanities will be beneficial to faculty and students alike.9? 

In conclusion, how might be a discussion of the early history of annotations 
(including footnotes) be of interest to Digital Humanities faculty and students to- 
day? The authors of seventeenth-century publications that utilized footnotes (often 
together with marginalia and/or other forms of annotation) were innovators by 
necessity, having had no established models to work from. Taken together, the use 
of footnotes — even in the examples discussed here, which likely constitute only 
a small portion of a much larger quantity — go far beyond the relatively limited 
ways in which footnotes are used today. The innovative use of footnotes (and other 
forms of annotation) by late seventeenth-century authors might serve as a source 
of focused and/or general insights that are of use to Digital Humanities academics 
today. In more general terms, the study of selected topics from the neglected and 
obscure past can sometimes lead us to new insights and new ways of thinking that 
would beneficially supplement the study of canonical Humanities texts. 


Addendum: Shortly before the publication of this contribution the following dis- 
putation was located in which footnotes are utilized: 


Marggraff, Michael (praes.) and Adamus Clausius (resp.). In ... Lipsiensum Academia ... De 
suppositio et natura ... VII. Idus Decembris 1664 ... horis locoque consuetis. [Augsburg SStB: 
Diss. Phil. 849] 


The text of this disputation contains 9 leaves (18 pages) including a total of 194 
footnotes. These footnotes are designated first by using the complete Greek al- 
phabet (24 footnotes) followed by the complete Roman alphabet (23 footnotes). 
This sequence - Greek alphabet followed by Roman alphabet - is repeated an 
additional three times. Thereafter the final six footnotes are designed using the 
first six letters of the Greek alphabet. 


62 Refer to the examples discussed by Schindler (2016) and Kennedy. 

63 To provide one further example, one of Theill's programmatic publications ([38]) contains 
marginalia and (in place of footnotes at the bottom portion of individual pages) concurrent text 
- with its segments denoted by the letters a through w, followed by a through z and then by a 
through 1 - parallel to the “main” text at the top of each individual page. 

64 The connection between innovation and that which is obscure is the focus of McCaffry and 
Krishnamurty (2014). 
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Bibliography 
Abbreviations: 


BSB: Bayerische Staatsbibliothek (München) 
F-S: Bibliothek der Franckeschen Stifttungen (Halle) 
[not digitally accesible at this time] 
ULB: Universitäts- und Landesbibliothek (Halle) 
SB: Staatliche Bibliothek (Regensburg) - Staatsbibliothek (Berlin) 
SStB: Staats- und Stadtbibliothek (Augsburg) 
StB: Stadtbibliothek (Bautzen) [not digitally accessible at this time] 


[In disputations]: praes. = presider - resp. = respondent 


___: Ina published disputation this refers to a blank space (where the day on 
which that disputation was scheduled to be held orally) on its title page, possibly 
because that day had not yet been determined at the time of publication. 


Parti: Programmatic publications by Johann Theill (1649—1652) 


Beginning in the year 1642 Theill numbered all of his programmatic publications. 
These numbers did not begin to be printed on the title pages of those publica- 
tions until the year 1652 (with No. 43) and thereafter (through No. 372) with the 
sole exception of No. 46. Prior to No. 43, these publication numbers are written 
by hand (and enclosed here in this Bibliography with square brackets) onto the 
copies thereof found at the Bautzen Municipal Library [Stadtbibliothek = StB]. 
The publication numbers that are written by hand - all except 43, 44, and 45 — 
are denoted with square parentheses in Part 1 of the Bibliography and within the 
footnotes. 


[25] (Theill, Johannes). Memoria testimonii publici .. quatuor orationum scholasticarum recita- 
tione 9/19 April 1649 obtinuerunt & reportaverunt discipuli Budissinenses Gustavus Martini 
... Johannes Georgius Seifert ... Petrus Ernestus Cramer ... Matthaeus Móller ... Gorlicii: Per 
Martinum Hermannum. [Bautzen StB: 20,8? 420]. 

[26] (Theill, Johannes). Discessus & valedictio ex schola Budissina ad tenorem legum scholas- 
ticarum instituta a duobus discipulis, Jacobo Melesio ... & Johanne Jacobo Krestchmarn 
testimonio hoc publico confirmata a scholas rectore, Typis exscripta a Martino Hermanno 
Gürlicii. (sub finem Quintilis [July] 1649). [Bautzen StB: 20,8? 420]. 

[27] Theill, Johannes. Ad oratiunculas scholasticas latinas de angelorum officiis & praesidiis a 
sex adolescentibus scholae evangelicae Budissinae ad diem crastini habendas ... invitat 
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... Johannes Theill, (Gorlitii excudebat Martinus Herman, Mense Septembri labente 1649) 
[Bautzen StB: 20,8? 420 - München BSB: Res/4 L. eleg. m. 250.51]. 

[28] Theill, Johannes. Virga ... cujus festivitatem natalitiam ... ad aliquot scholasticis Budissinen- 
sibus (Michael Hentsch, Johannes Fabianus Berricht ... Caspar Sommer) celebrandam indicit 
Joh. Theill (Budissae Feria Protomartyris [26 December] 1649.) [Bautzen StB: 20,8? 420]. 

[29] Theill, Johannes. Christi Dei hominis ... patientia & innocentia concludentis diagraphen 
exhibituros tres discipulos sistit, & ad eos benevole audiendos ... invitat Johannes Theill, 
Gorlicii: Typis exscripsit Martinus Hermannus (post Dominicam Judica 1650). [Bautzen StB: 
20,8? 420]. 

[30] Theill, Johannes. Ad contemplationem verni temporis physicam, ethicam & theologicam 
... de eodem valedictionis loco peroraturos tres Budissae natos, educatos & informatos 
disciplinos publice exhibens ... invitat Johannes Theill, Typis Gorlicensium exscripsit 
Martinus Herman (sub finem Aprilis 1650). [Bautzen StB: 20,8? 420]. 

[31] Theill, Johannes. Literae testimoniales, a Rectore Scholae Evang. Bud. Johannes Theill ... 
tribus discipulis, Danieli Crugero, Caspari Sommero, Jacobo Thuno ... publice transcriptae, 
typis Gorlicensibus per Martinum Hermann (mense Julio 1650). [Bautzen StB: 20,8? 420]. 

[32] Theill, Johannes. Ad dissertatinculas scholasticas latinas de angelis bonis et malis, a 
quinque Scholae Evangelicae Budissinae discipulis ad diem crastini habendas ... invito 
Johannes Theill, Gorlitii excudit Martinus Herman (Septembri 1650). [Bautzen StB: 20,8? 
420]. 

[33] Theill, Johannes. Rhapsodia de loco nati Christi & cantico angelico, qua... ad ... audiendos 
discipulos oratiunculis latinis prorsis & vorsis peroraturos ... invitat Johannes Theill, Typis 
publicis Gorlicensium, 1650 (pridie VI. Kal. Januar) anni 1650) [Bautzen StB: 20,8? 420]. 

[34] Theill, Joannes. De quatuor virtutibus cardinalibus ethicis fortitudine & justitia, liberalitate 
& temperantia ... duos dissertaturos discipulos in arenam producturus ad eos ... audiendos 
... invito Joh. Theill, Gorlitii exscrib. Martinus Hermannus (mense Martio 1651). [Bautzen StB: 
20,8? 420 - Wolfenbüttel, Herzog August Bibliothek: Xb 8794]. 

[35] Theill, Johannes. Ad doctrinam de resurrectione Christi & carnis nostrae occasione quatuor 
orationum scholasticarum devote recolendam ... invitat Joh. Theill, Gorlitii: excudebat 
Martinus Herman (mense Aprili 1651). [Bautzen StB: 20,8? 420]. 

[36] Theill, Johannes. Oratiunculas duas scholasticas de pietate & sedulitate ... publice haben- 
das ... invito Joh. Theill, Typis Górlicensibus Martini Hermanni (mense Junio 1651). [Bautzen 
StB: 20,8? 420]. 

[37] Theill, Johannes. Omnes ... Scholaeque nostrae Evangelicae Budissinensis patronos ... ad... 
audiendum Michaelem Fidekeller Dresdensem de ter tricensis ternariis ex variis auctoribus 
declmaturum ... rego & invito Joh: Theill, Typis Gorlicensium per Martinum Hermannum, (Kal. 
Octobribus) 1651. [Bautzen StB: 20,8? 420]. 

[38] Theill, Johannes. Ad mytacismum virtutum moralium quatuor oratiunculis scholasticis 
novorum studii oratorii tironum elimatum & sublimatum ... audiendum ... invitat Joh. Theill, 
Typis Gorlicensibus martini Hermanni, (exeunte Octobri) 1651. [Bautzen StB: 20,80 420]. 

[39] Theill, Johannes. Verbum caro factum est, quod post tot angelos, confessores & martyras 
testabuntur etiam oratiunculis tribus in sermone prorso latino tres scholae Budissinae 
discipuli ad quos audiendos ... invito Joh. Theill, Imprimeb. Gorlitii per Hermannum, (feriis 
natalitiis 1651). [Bautzen StB: 20,8? 420]. 

[40] Theill Johannes. Ad gratiosam audientiam carminum innocentium filo & metro Horatinao 
compositorum, sed per innocentiissiam Christi redemtoris passionem a novem testibus 
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clarissime confessam sanctificatorum ... invito Johannes Theill, Gorlitii typis martini 
Hermanni (mense Martio 1652). [Bautzen StB: 20,8? 420]. 

[41] Theill, Johannes. Christi resurgentis memoriam in Schola Evangl. Bud. oratiunculis quinque 
voris & prorsis concelebrandam ... invitat Johannes Theill, Charactere Gorlicensi Martini 
Hermanni (Feria IIda [Secunda] Paschali 1652). [Bautzen StB: 20,8? 420]. 

[42] Theill, Johannes. Ad virtutes etiam Homileticas (de comitate .. de amicitia ... de veracitate 
... de urbanitate). De quibus quatuor (Johannes Buchwald ... Andreas Richter ... Zacharias 
Nathusius ... Christophorus Hempel) scholae Buidssinae declamaturos ... invitat Johannes 
Theill, Typis Gorlicensibus Martini Hermanni (diebus Pentecostes 1652). [Bautzen StB: 20,8? 
420]. 

43 Theill, Johannes. XLIII. ... De virtute heroica, semivirtutibus & habitibus mentis dicturos 
tres disciplinos Scholae Evangelicae Budiss. publicae intimat, & ad eosdem ... audiendos 
... invitat ... Gorlicii excud. Martinus Hermann (primo auctumni triente) 1652. [Bautzen StB: 
20,8? 420]. 

44 Theill, Johannes. XLIV. ... Ad memoriam sanctorum angelorum quatuor dissertatiunculis 
latinis memoriter recitandis recolendam in Gymnasium Evangelicum Budiss. ... invitat 
Joh. Theill, Gorlicii: Excudit Martinus Hermannus, (postridie Kalend. tà lIvej'Gvoc) 1652. 
[Bautzen StB: 20,8? 420]. 

45 Theill, Johannes. XLV. ... Ad orationes de natura ethice & summi boni ... in Scholam Evang. 
Bud. ... Christianus & Caspar Albhardi Dresdenses, fratre, ... invitant stylo vicario praecep- 
toris publici & privati Johannes Theill, Excus. Gorlicii typis Martini Hermanni (XI. Kalend. 
Novembr. 1652). [Bautzen StB: 20,8? 420]. 

[46] Theill, Johannes. Currite, quaeso ... quicunque literis elegantioribus politi ... quod decenter 
rogat ... subjecta vobis quadriga discipulorum in Schola Bud. Johannis Theill ... ad d. VI. Kal. 
Januar. anni futuri 1653 typis Gorlicensium. [Bautzen StB: 20,8? 420]. 


Part 2: Additional Publications containing footnotes 
(1661 to 1700, in chronological order) 


Felwinger, Joh. Paul. (praes.) and Johannes Henricus Segnitz (author & resp.). Dissertatio politica 
de amnestia ... de 14. Augusti 1661, Altdorfii: e typographeo Georgii Hagen univ. typogr. 
[Regensburg SB: 999/A.Diss.2980]. 

Rechenberg. Adamus (praes.) and Johannes Gabriel Drechssler (autor & resp.). De spectris, incl. 
facult. philosoph. annuente ... publice disputabit d. 11. Martii 1668 ... H.L.Q.C., Lipsiae: 
Literis Johannis Erici Hahnii. [Augsburg SStB: Diss Phil 1086]. 

[Hoffmann] Hoffmannus, Christianus (praes.) and Paulus Marklowsky (resp.). Ficus arbor 
philologice considerata ... in illustri ad Salam ... publicae ... disquisitioni subjecta ad diem 
____ Octobris, anni 1670, Jenae: Typis Bauhoferianis. [Augsburg SStB: Diss Theol prot 1479]. 

Drechssler, Johannes Gabriel (praes.) and Caspar Felmerius (resp.). Cithara Davidica ... publice 
disputabunt ... d. 21. Decembr. 1670 H.L.Q.C. Lipsiae: Literis Colerianis. [Halle, F-S: 77 C 15 
(38 an)]. 

Scharfius, Jo. Fridericus. Disputatio inauguralis de sponsalibus ... pro licentia doctoris gradum 
legitime capessendi ad 17. Febr. 1671... publicae ventilationi exhibet ... H. L. Q. C., Altorfii: 
Literis Henrici Meyeri univers. typogr. [München BSB: 4 Diss. 720#Beibd. 13]. 
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Rivinus, Augustus Quirinus (praes.) and Tilemannus Andreas Rivinus (resp.). Libertas primaeva ... 
facultate philosophica P. P. ... ad diem 21. Septembr. 1672, Lipsiae: Literis Johannis Georgii. 
[München BSB: 4 Diss. 214#Beibd. 23]. 

Drechssler, Joh. Gabr. (praes.) and Abraham Christophorus Platz (resp.). Disputatio II. De 
metallorum transmutatione, et imprimis de chrysopoeia oder Goldmachen ... die 3. April 
1673. H.L.Q.C., Lipsiae: Typis viduae Joh. Wittigau. [München BSB: 4 Diss. 242#Beibd. 33a]. 

Schmid, Christianus (praes.) and Fridericus Guilielmus Tüchel (resp.). De iride, in... Lipsiensium 
Athenaeo disputabunt ... 1673 d. 21. Junii St.V. H.LQ.S., Lipsiae: Literis Johannis Coleri. 
[Halle, F-S: 77 C 15 (35 an)]. 

[Herbst] Herbstius, Martinus. Stulta antiquorum philosophorum prudentia, oratione, uti vocant, 
circulari in incluta palaecome, 9. Cal. martii 1674 delineata ... , Altdorfii: Typis Henrici Meyeri 
univ. typogr. [Erlangen, Universitátsbibliothek: HOO/RAB 215a]. 

Engelmann, Joh. Frid. Alles verkehrt. Als die ... Frau Helena Catharina... des ... Herrn Conrad 
Gottlobs Reichwalds von Kämpfften ... hertzinnigst geliebte Ehgemahlin / Welche den 
23. Maji des 1678sten Jahres ... selig in Gott entschlaffen ... 26. desselben Monats ... in 
der kirche zu Bischdorff beygesetzet worden in der dazumahl abgelegtenTrauer-Rede 
vorgestellet ... , Leipzig / Gedruckt by Michael Vogten. [Halle, F-S: 77 C 15 (4 an)]. 

[Bödiker] Bödikerus, Johannes. Panacea / Das ist: Allegeminer Wunder=Artzeney / wird billich 
genannt der heilige Ehestand / darin sich abermal begiebet ... Gregorius Bernhardi ... 
mit Anna Berghauerin ... Wie solches an ihrem Hochzeit-Tage / am 18. Febr. 1680, dem 
hochgeehrtem Paar mit Wundsch allerley Segens beschreibet ... Cólln an der Spree: Druckts 
Georg Schultze / Churfürstl. Brandeb. Buchdr. [Halle, F-S: 78 C 10 (31 an)]. 

Lessus, cum obitu praematuro adolescentulus ... John Adamus Lauerus ... Johannis Laueri ... 
natus denasceretur, anno 1680 d. 19. Calend. Septembr. ... decantatus a quibusdam primae 
classis Gymnasii alumnis (verse by 14 named students), Coloniae Brandenburgicae: Typis 
expressit Georgius Schultze / Elect. Typogr. [Halle, F-S: 78 C 10 (77 an)]. 

Nagel, Christoph. Wolgemeine Ehren=Reime / Welche Auf den erfreulichen Hochzeit=Tag des ... 
Herrn Joachim Damerows / und der ... Jungf. Anna Margaretha Brandessinn ... als selbiger 
den 29. Novembr. 1681 gehalten ward ... , Cólln an der Spree / Durcks Goerg Schultze / 
Churfl. Brandb. Hof=Buchdr. [Halle, F-S: 78 C 10 (60 an)]. 

Neumann, Joh. Georg. (praes.) and Johann Christoph Rascher (autor & resp.). Dissertatio politica 
qua optimam reipublicae formam, verbis et sententiis C. Corn. Taciti expressam ... Ad diem 1. 
Febr. 1684, Wittenbergae: Literis viduae Bruningianae, excudebat Andreas Ball. [Berlin SB: 
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Diss. 277#Beibd. 6]. 

[Hebenstreit] Hebenstreitus, Joh. Paulus (praes.) and Joh. Georgius Lippoldt (resp.). De remediis 
adversus locustas, inprimis Pontificiorum quorundam methodo expellendi eas ... adju- 
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vante Deo in Academia Jenensi...d. ^ Octobr.1693 publice disputabit ... Jenae: Literis 
Wertherianis. [München BSB: 4 Diss. 3258,14]. 
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d. XI. Sextil. 1697 recitata Tubingae, quum Eloquentia & Poeseos professionem inclyta in 
Eberhardina auspicaretur, Apud Jo. Georgium Cottam bibliopol. Tubing. Typis Jo. Cunradi 
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Maria Hinzmann 
‚Annotationsspiralen‘ und ,hermeneutischer 
Zirkel‘? 


Eine epistemologische Annäherung an die Interdependenzen 
zwischen Benennungs-, Modellierungs- und 
Erkenntnisprozessen in der (Re-)Konstruktion von Topoi 


Abstract: As a kind of epistemological hinge, annotations have a remarkable impact 
on processes of knowledge production in the Humanities and especially in Literary 
Studies, whose particularities are often modelled under the term ‘hermeneutic 
circle’. Based on a concrete experience of annotation practice in the (re)construc- 
tion of topoi, the article explores the special status of annotations and submits a 
pluralizing proposal: the differentiation of four circles aims at more precise descrip- 
tions of (a) the respective conditions and consequences of annotating in research 
processes, (b) the disciplinary specifics as well as the transdisciplinary dimensions 
of annotations and (c) the methodological transformations due to ‘digitization’ or 
‘(semi-)automation’ of annotation. 


Keywords: Levels of Annotation, Role of Interpretation, Vagueness, Modelling, 
Tagging, Epistemology, Literature, Methodology 


1 Einleitung 


Die folgenden Überlegungen sind verankert in einem Dissertationsprojekt, in des- 
sen Rahmen Wissens- und Argumentationsmuster in einem Korpus von etwa 40 
deutschsprachigen Indienreiseberichten um 1900 untersucht wurden. In der ver- 
gleichenden Lektüre, die als annotierender (Re-)Konstruktionsprozess oder als 
(re-)konstruierender Annotationsprozess begriffen werden kann, wurden diese 
Muster als Topoi untersucht. Topoi sind in ihrer Dynamik zwar aufschlussreiche, 
jedoch nicht völlig singuläre Annotationskategorien; so stellen sich die im Kontext 
der Topik entstandenen Überlegungen - trotz einiger Spezifika - als teilweise 
übertragbar auf andere Annotationszusammenhänge dar. 

Dazu gehört beispielsweise die Frage der Trennschärfe von Annotationska- 
tegorien in Wechselwirkung mit Benennungspraktiken und zugrunde liegenden 
theoretischen Annahmen. Handelt es sich beispielsweise im Fall der ‚Unsagbarkeit‘ 
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oder ,Undarstellbarkeit‘ um einen Topos oder um zwei Topoi? Inwiefern lassen 
sich diesbezügliche Entscheidungen überhaupt verallgemeinern oder sind sie nur 
auf ein umgrenztes Korpus beziehbar? Welche Rolle spielt das Annotieren in der 
Herausbildung von Topoi, die wiederum selbst als Analysekategorien wirksam 
sind? Inwiefern steuern und determinieren Annotationen den (re-)konstruierenden 
Erkenntnisprozess, inwiefern bilden sie ihn ab, inwiefern bringen sie ihn voran? 
Die übergreifende, mit diesen Fragen verbundene Hypothese besteht darin, dass 
Annotationen eine Art Scharnier zwischen verschiedenen method(olog)ischen Ebe- 
nen und Prozessen darstellen und in dieser Funktion eine genauere Betrachtung 
lohnen. 

Eine grundlegende Annahme des Beitrags ist, dass Annotationen in ihrem 
Zwischenstatus und ihrer Polyfunktionalitat — als heuristische Kategorien, als me- 
thodisches Instrumentarium und als (Zwischen-)Ergebnisse - einen maßgeblichen 
Einfluss auf heuristische Prozesse haben, die wiederum umgekehrt in Annotatio- 
nen kristallisieren und auf den jeweiligen Prozess rückwirken. Im disziplinären 
Rahmen einer (kulturwissenschaftlich orientierten) Literaturwissenschaft kann 
als Referenzmodell für Erkenntnisprozesse der ,hermeneutische Zirkel‘ gelten, der 
je nach Perspektive als ein terminologisches Sammelbecken, als ‚Chiffre‘ oder pars 
pro toto für verschiedene heuristische ,Zirkularitáten' fungiert, deren systemati- 
sche Betrachtung Gewinn bringend erscheint. 

Unterscheidet man grundsátzlich zwischen verschiedenen terminologischen 
Annäherungen und ihren verschiedenen Potentialen, wie dies im Kontext der dem 
Sammelband vorausgehenden Tagung diskutiert wurde, so ist der folgende Bei- 
trag grundsätzlich auf der Seite eines weiten ‚Annotations‘-Begriffs — zwischen 
note-making* und markup — angesiedelt. Annotationspraktiken haben in ihrer 
langen kulturgeschichtlichen Tradition (vgl. Moulin 2010), deren Vielfalt zunáchst 
kaum unter einem Begriff subsumierbar scheint, ein hohes inter- und transdiszi- 
plinäres Potential. Die Perspektive, sie als Vorläufer jüngerer Entwicklungen von 
markup zu begreifen (vgl. Meister 2020, 9), erweitert ihren Bedeutungshorizont 
zusätzlich. Vor einem derartig geöffneten Horizont wird im Folgenden keine begriff- 
liche Eingrenzung angestrebt, sondern ein transdisziplinäres Reflexionspotential 
des ‚Annotations‘-Begriffs angenommen. Der Begriff wirkt in diesem Sinne als 
Nukleus, in dem verschiedene Praktiken zusammenfallen und über das terminolo- 
gische Dach der ‚Annotation‘ methodologisch vergleichbar und in den jeweiligen 
epistemologischen Bedingungen reflektierbar werden.? 


1 Vgl. dazu McCarty 2020 (in diesem Band). 
2 Vgl. dazu auch Bamert 2020 (in diesem Band). 
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Am Beispiel der (Re-)Konstruktion zweier Topoi - Unsagbarkeit und Undarstell- 
barkeit — wird verdeutlicht (vgl. 2.), wie eng die mit dem Annotieren verbundene 
Benennung ,topischer Elemente‘ — deren Status als ‚Topoi‘ sich erst im Laufe des 
(Re-)Konstruktionsprozesses erweist — mit der Bildung heuristischer Kategorien 
und ihrer Modellierung verknüpft ist (vgl. 3.). Die damit verbundenen Wechsel- 
wirkungen lassen sich differenzieren, wenn man den ,hermeneutischen Zirkel' 
dahingehend pluralisiert, verschiedene ‚Zirkularitäten‘ in heuristischen Prozessen 
zu differenzieren (vgl. 4.). Der entworfene Differenzierungsvorschlag wird in einem 
abschließenden Ausblick in seinen Anwendungspotentialen reflektiert. 


2 Topos- und Topik-Verstándnis am Beispiel von 
Unsagbarkeit und Undarstellbarkeit 


Die Wechselwirkungen zwischen abstraktem Topos- und Topik-Verstándnis einer- 
seits und konkretem (Re-)Konstruktionsprozess von Topoi andererseits werden im 
Folgenden exemplarisch anhand der beiden Topoi Unsagbarkeit und Undarstell- 
barkeit dargelegt. Zugleich soll verdeutlicht werden, wie eng Annotieren, Katego- 
rienbildung und Theorieentwicklung im (Re-)Konstruktionsprozess ineinander 
verwoben sind. Der Begriff der ,(Re-)Konstruktion' verweist auf eine spezifische 
Auffassung des erkenntnistheoretischen Status von Topoi: Sie werden zugleich 
er- und gefunden, konstruiert und rekonstruiert.? Ein weiteres zentrales Charak- 
teristikum von Topoi in der hier vertretenen Konzeption ist die Tatsache, dass 
sie in relationalen Gefügen — den Topiken — wirksam sind. Ein Topos lässt sich 
vor diesem Hintergrund kaum sinnvoll als Einzelphánomen (re-)konstruieren, 
sondern definiert sich — was für die meisten Kategorien gelten dürfte — relatio- 
nal, also im Verháltnis zu anderen Topoi. Was dies konkret für das Verháltnis der 
beiden exemplarisch náher zu betrachtenden Topoi bedeutet, wird nach einigen 
terminologischen und konzeptionellen Vorüberlegungen erläutert. 
Terminologische Auseinandersetzungen mit den ‚Unschärfen‘ des Topos- 
Begriffs laufen letztlich „Gefahr, sich im begriffsgeschichtlichen Gestrüpp zu 
verfangen“ (Kopperschmidt 1991, 53), was sich in den Definitionen des für die 
deutschsprachige Literaturwissenschaft einschlägigen Reallexikons auf bemer- 
kenswerte Weise niederschlägt. Dort wird ein Topos als „Suchformel für das 


3 Dem liegt gleichermaßen ein konstruktivistisches Verständnis zum einen und das Streben 
nach größtmöglicher Nähe zu den zu rekonstruierenden Rekurrenzphänomenen zum anderen 
zugrunde. 
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Finden von Argumenten oder sprachliche Formulierung mit allgemein anerkann- 
ter kulturspezifischer Bedeutung“ (Hess 2007, 649) definiert und die ‚Topik‘ als 
„Anleitung zur Verwendung standardisierter Argumentationsformen bzw. aner- 
kannter Darstellungsmuster, Themen und Wissensbestände“ (Kühlmann und 
Schmidt-Biggemann 2007, 646) begriffen. Die beiden Wórter ,oder* und ,bzw.' 
verweisen auf die Bandbreite an móglichen Charakterisierungs-, Erscheinungs- 
und Realisationsformen eines Topos. Genau darin liegt das Wesen der Topik; 
keineswegs handelt es sich um einfach aufzulósende Inkonsistenzen. 

Versuche ‚Topos‘ und ‚Topik‘ reduktionistisch für die eine oder andere Seite 
des ,oder‘/,bzw.‘ zu vereinnahmen, durchziehen die Debatten der Toposforschung 
in der zweiten Hälfte des 20. Jahrhunderts. Dies geht auf eine Wiederbelebung 
der Topik durch Ernst Robert Curtius zurück, der mit seinem einflussreichen Werk 
Europdische Literatur und lateinisches Mittelalter das literaturwissenschaftliche 
Verständnis von Topoi maßgeblich geprägt und zugleich heftigste Kritik hervorge- 
rufen hat.^ Die Dichotomie, die sich zwischen einer affirmativen Curtius-Rezeption 
und ihren Opponenten verhártet, ist die zwischen ,formaler‘ und ,materialer To- 
pik'.^ Teilweise sind die damit einhergehenden ‚Gräben‘ der Toposforschung auch 
(sub-)disziplinäre, insofern die Literaturwissenschaft in einer motivgeschichtli- 
chen Tradition die argumentativen Dimensionen tendenziell ausblendet, welche 
in der Linguistik verstárkt eine Rolle spielen. Angesichts der komplexen rhetori- 
schen Tradition erscheint es letztlich am angemessensten, integrativ verschiedene 
Dimensionen von Topoi zu berücksichtigen. Dieses Integrationspotential bedingt 
zugleich ihre Relevanz als heuristische Kategorie. 

Bislang werden Fragen konkreter Operationalisierung des Topos-Begriffs kaum 
diskutiert und wenn als Desiderat erkannt.9 Die Herausforderungen für eine auf die 


4 Vgl. für eine Kritik an Curtius 1973 als exemplarischen Einblick in die ,Debattenkultur' z. B.: 
„Schuld an dieser paradoxen Situation ist bekanntlich die philologische Autorität von E. R. 
Curtius, dem Vater des aktuellen Toposbegriffs, und die schier grenzenlose Assoziierbarkeit seiner 
irrtümlichen Neudefinition.* (Wiedemann 1981, 235) 

5 Gegen die „Scheinalternative zwischen ‚formaler‘ und ‚inhaltlicher‘ Topos-Qualität“ hat sich 
Bornscheuer bereits 1976 in seiner (literaturwissenschaftlich) zu wenig rezipierten Studie Topik. 
Zur Struktur der gesellschaftlichen Einbildungskraft gewendet. Bornscheuer legt dar, dass die 
‚Unschärfe‘ als Prinzip bereits in den antiken Quellen virulent ist und sich nicht erst, wie in den 
zugespitzten Debatten behauptet, mit Curtius gewissermaßen ,eingeschlichen' hat. Vel. dazu 
ausführlicher Bornscheuer 1976, 16-90. 

6 So habe der Kongress Topik und Rhetorik 1997, auf den der Band von Schirren und Ueding (2000) 
zurückgeht, „die Chance verpasst, die Frage überhaupt zu stellen, ob sich Topik als Verfahrensbe- 
griff prázisieren lasse“ (Hallacker und Schmidt-Biggemann 2007, 21). Vgl. auch Knape (2000, 758), 
der feststellt: „Sehr viel schwieriger ist eine Antwort auf die Frage, wie sich topische Strukturen in 
Texten überhaupt methodisch isolieren und interpretieren lassen.“ 
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(Re-)Konstruktion von Topoi zielende Annotationspraxis liegen maßgeblich in ih- 
rem besonderen Status als zugleich ‚formale‘ (d. h. argumentative, formallogische) 
und ‚materiale‘ (inhaltliche) Kategorie. Diese Dynamik geht in wissensgeschichtli- 
cher Perspektive damit einher, dass Topoi sowohl Tradition als auch Innovation be- 
dingen.” Zumeist wird in der (literaturwissenschaftlichen) Forschung einseitig ihre 
Konventionalität betont,? jedoch bedingen Topoi gleichermaßen Stabilisierungs- 
wie Dynamisierungsprozesse. Sie sind ‚Raster‘, ‚Speicher‘ und ‚Methode‘,? wobei 
der Aspekt der ‚Methode‘ häufig vernachlässigt wird. Die Debatten entzünden 
sich insbesondere rund um die Glaubensfrage der Nicht-/Identität von ‚Topos‘ und 
‚Argument‘. Während die ‚Formallogiker‘ den Raster- bzw. Instrument-Charakter 
und damit eine spezifische Traditionslinie des Topos-Begriffs betonen, stützen 
sich deren Kontrahenten einseitig auf die Speicher- bzw. Sediment-Funktion von 
Topoi. Dabei macht es die komplexe Begriffsgeschichte unmöglich und unnötig, 
eine Dichotomisierbarkeit anzusetzen (vgl. Traninger 2001, 92). 

Entscheidend für diesen unauflösbaren Zwischen- bzw. Doppelstatus von To- 
poi ist ihre Rückgebundenheit an die endoxa als historisch situiertes Erfahrungs- 
und Meinungswissen. Die Verankerung von Topoi in den endoxa - eine Art diskursi- 
ve Tiefenstruktur — geht mit einem weiten Argument-Begriff einher, dessen Vorteil 
darin besteht, dass zunáchst offenbleibt, welche sprachliche Einheit als Argument 
funktional werden kann.!? Zwischen dieser Tiefenstruktur und der konkreten 
Erscheinungsform von Topoi auf der textuellen Oberfláche hat eine (re-)konstruie- 
rende Annotationspraxis zu vermitteln. Dabei stellt sich erst im Vergleich einer 
Vielzahl von Argumentationszusammenhängen dar, wie sich ein Topos als Rekur- 
renzphánomen trennscharf ein- und abgrenzen lásst. Eine breite Materialbasis 
erscheint für die (Re-)Konstruktion von Topoi unabdingbar. + 

Zwei der etwa 150 für das circa 40 Indienreiseberichte umfassende Untersu- 
chungskorpus (re-)konstruierten Topoi sind der Unsagbarkeits- und der Undarstell- 


7 Vgl.: „‚Topik‘ [...] ist der älteste Begriff für diesen substantiellen und verfahrenstechnischen 
Zusammenhang zwischen der Speicherung und Reproduktion eines alten Wissens auf der einen 
Seite und der Produktion eines damit kompatiblen und für neue Erfahrungsprobleme offenen 
Innovations-Wissens auf der anderen Seite.* (Bornscheuer 1987, 27) 

8 Vgl. ähnlich kritisch Hallacker und Schmidt-Biggemann (2007, 21): „Allen Darstellungen der 
Topik, die bislang vorliegen, ist durchweg gemeinsam, dass sie die konservativen und statischen 
Momente der Topik betonen." 

9 Vgl. Barthes (2018, 67-70). Im Original lauten die Begriffe ‚grille‘, ‚reserve‘ und ,méthode*"; vgl. 
Barthes (1985, 138-141). 

10 Vgl. dazu sehr prägnant Schmidt-Biggemann (2000, 245): „Was nun ein Argument ist, wird 
immer allein in dem Zusammenhang deutlich, in dem es wirkt." 

11 Vgl. Schmidt-Biggemann (2000, 245f.): „Topik verwaltet Wissensfülle, um sie argumentativ 
anzuwenden. [...] Topik ist ohne Materialfülle und deren Ordnung undenkbar.“ 
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barkeits-Topos. Beide Topoi wurden als Teil der Reiseberichts-Topik (re-)konstruiert 
und gehóren demnach jenem relationalen Gefüge von Topoi an, welches als re- 
levant für die Textsorte ‚Reisebericht‘ um 1900 erachtet wird.!2 Das Verhältnis 
beider Topoi, also unter anderem die Tatsache, dass diese überhaupt als zwei 
Topoi (re-)konstruiert und die entsprechenden Rekurrenzphánomene nicht un- 
ter einem Topos subsumiert wurden, erlaubt es, zu veranschaulichen, welche 
Bedeutung dem Annotieren in der (Re-)Konstruktion von Topoi zukommt. 

Der Unsagbarkeits-Topos verfügt über eine vielfáltige und weit zurückreichen- 
de Tradition, auf die nicht zuletzt auch Curtius in dem bereits erwähnten, innerhalb 
der Literaturwissenschaft einflussreichen Werk eingeht. Bemerkenswerterweise 
spricht er von den ,Unsagbarkeitstopoi*? im Plural, worin bereits jene Differen- 
zierungsoptionen anklingen, die in der Auseinandersetzung mit dem Korpus der 
Indienreiseberichte von Bedeutung waren und schließlich zur Unterscheidung von 
Unsagbarkeit und Undarstellbarkeit geführt haben. Dass sich die beobachtbaren 
Rekurrenzen nicht als spezifisch für den Imaginárraum ,Indien' erweisen, sondern 
auch in anderen Reiseberichts-Korpora virulent sind, zeigt sich mit einem Blick in 
die Reiseliteraturforschung, wobei die Benennungen leicht differieren. So spricht 
beispielsweise Tilman Fischer für deutschsprachige England-Reiseberichte vom 
,Unbeschreibbarkeitstopos"'^ und Aurélie Choné für ihr Untersuchungskorpus 
von Indienreiseberichten vom ,topos de l'indicible* (vgl. Choné 2015, 251-257), 
was in beiden Fallen in etwa dem Unsagbarkeits-Topos im hier verhandelten Un- 
tersuchungskorpus entspricht. 


12 Das zweite relationale Gefüge von Topoi stellt die Indien-Topik dar: Sie konstelliert jene Topoi, 
welche für die Konstitution des Imaginárraums ,Indien' um 1900 relevant sind. 

13 Vgl. z. B. Curtius (1973, 168-171). Curtius überschreibt die betreffende Passage mit „85. Unsag- 
barkeitstopoi“ und führt folgendermaßen ein: „Die Wurzel dieser von mir so genannten topoi 
ist die ,Betonung der Unfáhigkeit, dem Stoff gerecht zu werden'. Sie kommt seit Homer zu allen 
Zeiten vor. In der Lobrede ,findet man keine Worte‘, um die zu feiernde Person angemessen zu 
preisen.“ (Curtius 1973, 168). 

14 Fischer entscheidet sich in der Benennung - in Zusammenhang mit seiner Gattungsbezeich- 
nung ‚Reisebeschreibung‘ - für den ‚Unbeschreibbarkeitstopos‘: „Der Unbeschreibbarkeitstopos 
stellt eine der facettenreichsten Argumentationsweisen im Arsenal der Darstellungsmittel und 
Gattungskonventionen dar [...].* (Fischer 2004, 287-296, hier 288.) Die Grenzen sprachlicher 
Darstellbarkeit werden zwar háufig im Rahmen von oder bezogen auf Deskriptionen aktualisiert 
und ‚Unbeschreibbarkeit‘ erscheint auch auf der Textoberfläche relativ häufig in diesem Wortlaut, 
jedoch stellt dies kein Argument dar, das in den Reiseberichten selbst — also auf der Ebene der 
Objektsprache - verhandelt wird. Es liegt vielmehr auf einer metasprachlichen Ebene literaturwis- 
senschaftlicher Auseinandersetzung und ist von den argumentativen Wiederholungsstrukturen 
auf der Primártextebene zu trennen. 

15 Im Sinne der Komplexitátsreduktion werden im Folgenden lediglich das deutschsprachige 
Korpus und deutschsprachige Benennungspraktiken betrachtet und die gesamte Problematik 
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Beim Unsagbarkeits-Topos handelt es sich offensichtlich um ein eingángiges 
Rekurrenzmuster — er wird auch in Studien thematisiert, die ansonsten kaum 
mit dem Topos-Begriff arbeiten. Als Funktionen werden häufig Dimensionen der 
Asthetisierung und das Erzeugen von Unmittelbarkeit genannt (vgl. z. B. Fischer 
2004, 296). Es geht in den Aktualisierungen des Topos um das Paradoxon der sich 
sprachlich artikulierenden Unmöglichkeit sprachlicher Repräsentation, um die 
‚Vermittlung des Unvermittelbaren‘ (vgl. Schneider und Villiger 2010, 8). Auffällig ist 
jedoch, dass in den Referenzstudien nicht zwischen mehreren Topoi (Unsagbarkeit, 
Undarstellbarkeit) differenziert wird. Während diverse andere Grenzziehungen 
(beispielsweise eine denkbare Unterscheidung zwischen ‚Unbeschreibbarkeit‘ und 
‚Unerzählbarkeit‘) im Untersuchungskorpus keine Rolle spielen, so stellt die argu- 
mentative Differenzierung von Unsagbarkeit und Undarstellbarkeit eine relevante 
Dimension dar. Dieser Befund ergibt sich jedoch erst im schrittweise (re-)kon- 
struierenden und das heißt fortwährend vergleichenden Annotationsprozess. Die 
Grenzen des Reprásentierbaren werden - wie sich in der Zusammenschau von 
diversen zunächst mit dem Begriff ‚Unsagbarkeit‘ annotierten Textstellen schritt- 
weise ergibt — nicht nur in ihrer sprachlichen Dimension ausgelotet, sondern 
medial aufgefáchert. 

Als besonders verdichtet stellt sich in diesem Zusammenhang das Argument 
dar, dass weder Sprache noch ein anderes Medium etwas wiederzugeben vermógen. 
Dies kristallisiert sich beispielsweise in der Wendung ,weder Pinsel noch Feder‘ 
heraus.!6 Der Unsagbarkeits-Topos wird in diesen Fallen intermedial gesteigert 
und mündet in die Überhóhung, dass die Eindrücke derart überwältigend oder 
die Schónheit derart vollendet seien, dass man sich an den Grenzen der Reprá- 
sentierbarkeit überhaupt bewegt. Ein Beispiel für die ineinander übergehende 
argumentative Funktionalisierung beider Topoi — Unsagbarkeit und Undarstellbar- 
keit — in einer aufeinanderfolgenden Steigerung findet sich u. a. bei Dahlmann in 
Bezug auf den Taj Mahal, der 


„so vollendet [sei], daß keine Beschreibung dem Kunstwerk annähernd gerecht wird. Kein 
Bauwerk Indiens ist so haufig gezeichnet und photographiert worden, unzáhlige Male wurde 
es beschrieben; aber weder Feder noch Pinsel vermógen auch nur einen schwachen Begriff 
von dem Wunderwerke [...] zu vermitteln [...].“ (Dahlmann 1908, Bd. 2, 214) 


Mehr-/Außersprachlichkeit von Topoi ausgeklammert. Vgl. zu dieser Problematik Kienpointner 
2000. Aus literatur- bzw. textwissenschaftlicher Sicht sind Topoi ein ausschließlich in den jeweili- 
gen ‚sprachlichen Manifestationen' zugänglicher Untersuchungsgegenstand. 

16 Vgl. z. B. „Die untergehende Sonne schmückte eben den westlichen Horizont mit jenen wun- 
derbaren, nur zu rasch vorübereilenden Farbtónen der Tropenzone, deren Gluth und Anmuth 
weder Pinsel noch Feder annáhernd wiederzugeben vermógen.* (Haeckel 1883, 60) 


138 —— Maria Hinzmann 


Neben die gángige Thematisierung der Reprásentationsgrenzen als ,Nicht-Sagen‘- 
und ‚Nicht-Malen‘-Können tritt - wie in diesem Auszug deutlich wird - zunehmend 
die Verhandlung ,fotografischer Abbildbarkeit‘. Die Fotografie kann in anderen 
Textpassagen des Korpus als Ausweg aus dem Dilemma der Unsagbarkeit fun- 
gieren;" teilweise gilt dies auch für die Malerei.!? Die bisherigen Ausführungen 
lassen sich demnach weiter präzisieren: Neben der ‚intermedialen Steigerung‘ des 
Unsagbarkeits-Topos im Undarstellbarkeits-Topos sind auch kombinierte Aktua- 
lisierungsformen beider Topoi zu beobachten, welche die Kompetenzfelder der 
unterschiedlichen medialen Móglichkeiten mit- und gegeneinander abwágen. Die 
Unsagbarkeit wird in diesen Fallen nicht zur Undarstellbarkeit gesteigert, sondern 
die sprachlichen Grenzen des Unsagbaren werden im Kontrast zu den vorhan- 
denen Möglichkeiten anderer Medien geschárft.!? Etwas Unsagbares ist somit 
nicht zwangsläufig auch undarstellbar. Vielmehr haben die Reprásentationsmóg- 
lichkeiten verschiedener Medien jeweils unterschiedliche Potentiale, welche im 
Untersuchungskorpus auffállig ausgelotet werden. 

Während die bei Curtius im Plural benannten „Unsagbarkeitstopoi“ — wie 
einleitend skizziert — als transhistorisch und in sehr unterschiedlichen Textsorten 
und Kontexten virulentes Phánomen gelten kónnen, so zeigt sich am Beispiel der 
Differenzierung von Unsagbarkeit und Undarstellbarkeit als zwei Topoi im Korpus 
der Indienreiseberichte um 1900, dass Topoi als argumentative Rekurrenzmuster, 
insofern sie auf ein relevantes Meinungs- und Erfahrungswissen rekurrieren, nicht 
universell, sondern in spezifischen Kontexten wirksam sind. Dass die beiden Topoi 
im Untersuchungskorpus in dieser Weise argumentativ ausdifferenziert auftreten, 
lásst sich kulturhistorisch deuten, wobei u. a. die zunehmende Bedeutung der Foto- 
grafie — nicht zuletzt für Reisende und in Reiseberichten - eine Rolle spielen dürfte. 
Einen anderen, damit jedoch verbundenen Deutungsrahmen bietet eine für die 
Zeit um 1900 zu veranschlagende „neuerliche| ] Repräsentationskrise“,2° die sich 
beispielsweise einschlágig in Hofmannsthals Brief des Lord Chandos artikuliert. 


17 Vgl. z. B.: „Die detaillirte Beschreibung dieses so merkwürdigen Bauwerkes ist außerordentlich 
schwierig und fast nur mit Beihilfe der Photographie möglich.“ (Tellemann 1900, 98 f.) 

18 So kommt z. B. Garbe nach einer ausführlichen ‚Bildbeschreibung‘ (vgl. Garbe 1889, 78 f.) zu 
dem lakonischen Schluss: ,,[...] - kurz das bunte Gewimmel bietet so zahllose Bilder, daß die Feder 
kaum versuchen kann zu beschreiben, was der Pinsel des Malers leisten müßte.“ (Garbe 1889, 79) 
19 Vgl. u.a. „Eine genaue Beschreibung dieser herrlichen Bauwerke zu machen ist schwierig, [...] 
nur einigermaßen kann die Photographie ein schwaches Bild wiedergeben.“ (Tellemann 1900, 52) 
20 Den „Kern der neuerlichen Repräsentationskrise“ um 1900 bezieht Fischer-Lichte auf die 
Inkommensurabilitát von Zeichen und Objekten, welche „[d]ie bisher als stabil angenommenen 
Verbindungen eines Signifikanten mit einem Signifikat“ (Fischer-Lichte 2001, 12) auflösen, was 
sich mit den Entwicklungen der Psychoanalyse und einer Dezentrierung und Fragmentarisierung 
des Subjekts überlagert (vgl. Fischer-Lichte 2001, 12f.). 
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In der auffálligen Rekurrenz von Unsagbarkeit und Undarstellbarkeit kristallisie- 
ren sich die Brüchigkeit und zugleich die argumentative Relevanz von Fragen der 
Reprásentierbarkeit — in verschiedenen Medien und ihren Kombinationen - im 
Untersuchungskorpus heraus. 


3 Annotieren als Benennungspraxis und 
(Re-)Modellierungen 


In dem exemplarisch veranschaulichten (Re-)Konstruktionsprozess der Topoi 
für das Untersuchungskorpus der Indienreiseberichte um 1900 wurde das Kon- 
zept der Topik sowie die einzelnen Topoi als Elemente einer Topik schrittweise 
(re-)modelliert. Ein aus diesem Prozess hervorgegangenes (Zwischen-)Ergebnis 
der (Re-)Modellierung besteht darin, dass Topoi - anders als in der rhetorischen 
Tradition sowie in der Toposforschung oft (implizit) vorausgesetzt — nicht lediglich 
auf der Ebene der inventio (oder strukturalistisch reformuliert: im Paradigma), 
sondern vielmehr auch auf der elocutio-Ebene (bzw. im Syntagma) anzusiedeln 
sind.?! Diese Herauslósung der Topik aus den engen Grenzen der inventio ergibt 
sich, wenn man die Topik schrittweise zu operationalisieren versucht, ohne bereits 
ein bestimmtes historisches Paradigma von Topoi als analytischen Horizont voraus- 
setzen zu kénnen.” Eine solche Konzeption ist damit zu begründen, dass sich die 
Idealabfolge eines in der Tradition der Rhetorik stehenden Textproduktionsprozes- 
ses (inventio, dispositio, elocutio, memoria, actio) als heuristisch irrelevant erweist, 
wenn man grundsätzlich davon ausgeht, dass diese Produktions-Ebene nur über 
die sprachlichen Realisationsformen auf Textoberflächen analytisch verfügbar ist. 
Die Modellierung von Topoi hängt also letztlich theoretisch eng zusammen damit, 
wie man die analytische Verfügbarkeit von Textproduktionsprozessen konzipiert. 


21 Relationsformen von Topoi auf elocutio-Ebene stellen nicht lediglich eine ‚Umsetzung‘ zuvor 
auf inventio-Ebene getroffener Entscheidungen dar. Es ist vielmehr davon auszugehen, dass 
Argumente und Argumentationsprozesse komplexer funktionieren, nämlich nicht ausschließlich 
‚bewusst‘ und folglich auch nicht im Sinne intentional gesetzter, inventioneller Einheiten, die 
lediglich in eine textuelle Gestalt ‚implementiert‘ werden. Vgl. zu einer aus Sicht dieses Beitrags 
problematischen Vorstellung des ,Implementierens‘ Knape (2000, besonders 756 f.) 

22 In historischen Zeiten, in denen für die Topik bildungssoziologisch andere Voraussetzun- 
gen herrschten als um 1900 und in denen topische Paradigmen - wie beispielsweise in Topos- 
Katalogen der Frühen Neuzeit - zirkulierten, kann ein solcher Vergleichshorizont vorliegen. Vgl. 
beispielsweise zur Tradition der commonplace books Moss 2011. 
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Die skizzierte — in der Tradition der Rhetorik stehende und sich zugleich teil- 
weise deutlich von ihr absetzende — Rekonzeption des Topos-Begriffs láuft zwar 
Akzeptanzproblemen entgegen, hat aber transdisziplináres Potential, u. a. insofern 
sich methodologische Anschlussstellen beispielsweise an die Korpuslinguistik (in 
der Untersuchung von ,Sprachgebrauchsmustern‘?3) eröffnen. Eine Entlehnung des 
‚Kollokations‘-Begriffs remodelliert die Topik als kombinatorische Heuristik: Topoi 
treten in argumentierenden Texten selten losgelóst, sondern zumeist kombiniert 
auf. Eine sich dazu komplementär verhaltende heuristische (Re-)Konstruktion 
schneidet gewissermaßen Topoi aus den Kombinationsformen heraus. Die Benen- 
nung eines Topos erfolgt als Abschluss eines längeren Prozesses des ‚Einkreisens‘. 
Die heuristische Offenheit der Kategorienbildung ist in dieser Phase zentral, denn 
zu Beginn ist ungewiss, welchen Status eine argumentative Einheit im Verhält- 
nis zu anderen ‚topischen Elementen‘ besitzt. Der argumentative Bedeutungsum- 
fang des jeweiligen Elementes ergibt sich in Relation zu den anderen Elementen 
im relationalen Gefüge einer Topik. Die Rekurrenzen, die spáter als Kombinatio- 
nen mehrerer Topoi beschreibbar sind, werden ,zerteilt‘ und umgekehrt werden 
verschiedene Aktualisierungsvarianten unter einer jeweiligen Topos-Benennung 
zusammengefügt'. In beiden Fallen werden schrittweise Topoi ,gebildet‘, also 
zugleich untersucht und hergestellt. Für dieses ‚Einkreisen‘ von Topoi spielen 
die Interdependenz und das Zusammenwirken von qualitativen (argumentative 
Funktionalitát) und quantitativen (Haufigkeit des Auftretens) Dimensionen eine 
wichtige Rolle. 

Annotationen formen und modellieren schrittweise die zu (re-)konstruieren- 
den Muster.?^ Sie bewegen sich dabei auf zwei Ebenen: Einerseits sind sie angesie- 
delt auf der Ebene eines zu rekonstruierenden — historisch-kulturell situierten — 
Rekurrenzphánomens als Objekt; den topischen Mustern wird sich im fortwáhren- 
den Vergleich der variierenden Iterationen in den Primártexten mit dem Anspruch 
der Rekonstruktion (einer jeweiligen Sprach-/Argumentationspraxis) angenáhert. 
Andererseits wirken Topos-Annotationen als heuristische Kategorien metasprach- 
lich in einem Konstruktionsprozess: Somit werden Topoi durch eine Annotations- 
praxis konstruiert und stehen in Relation zu anderen Topoi. Die konstruierende 


23 Bubenhofers Studie zu Sprachgebrauchsmustern und die von ihm dargelegte induktive Metho- 
dik sowie seine Erkenntnisinteressen überschneiden sich, wenngleich linguistisch geprágt, mit 
denen dieser Studie in einigen wichtigen Punkten, u. a. insofern er ,Sprachgebrauchsmuster als 
Kristallisationskerne von Diskursen* (Bubenhofer 2009, 309) auffasst und dabei das rekurrente 
Auftreten von Wortverbindungen in den Fokus rückt. 

24 Vgl. zur Prozessualitát (und potentiellen Unabgeschlossenheit) von Modellierungen: ,,In other 
words, computational models, however finely perfected, are better understood as temporary states 
in a process of coming to know rather than fixed structures of knowledge.“ (McCarty 2005, 27) 
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Benennung hángt zum einen von dem argumentativen dynamischen Kern - dem 
Elementarcharakter des Topos — ab; zum anderen ist in der Benennung eine trenn- 
scharfe Relationierung zu anderen Rekurrenzmustern zu gewáhrleisten und jeweils 
genau abzuwágen, ob eine bestimmte Menge an argumentativ áhnlichen Aktuali- 
sierungsformen als ein Topos oder als zwei Topoi — wie im Falle von Unsagbarkeit 
und Undarstellbarkeit — zu modellieren sind. 

Für eine weitergehende Prázisierung des Verháltnisses von Annotationen und 
Modellierungsprozessen lässt sich auf die Unterscheidung ‚model of‘ und ‚model 
for‘ zurückgreifen, die McCarty in Anlehnung an Geertz und Groenewold trifft: 
„Thus we construct a model of an airplane in order to see how it works; we design 
a model for an airplane to guide its construction.“ (McCarty 2008, 393, vgl. Mc- 
Carty 2005, 24) Topoi sind auf der ersten Ebene der historisch-kulturell situierten 
Sprachpraxis zum einen als ,model for' (für eine funktionierende, argumentativ 
überzeugende Redepraxis) und zum anderen als ‚model of‘ (des in einer histori- 
schen Situation jeweils relevanten Erfahrungs- und Meinungswissens) zu verste- 
hen. Zunáchst lásst sich die Wirkung eines solchen topischen Modells also eng auf 
die Argumentationspraxis in einer spezifischen historisch-kulturellen Situation 
beziehen. Daran schließt sich dann jedoch die Frage der Transfermóglichkeiten an, 
also inwiefern ,,[t]he model can be exported to other texts, tried out on them in a 
new round of recursive modeling [...]. This is really the normal course of modeling 
in the sciences as well: the working model begins to converge on the theoretical 
model.* (McCarty 2008, 398) 

Dieser Gedanke des Konvergierens von ‚arbeitendem‘ und ,theoretischem' 
Modell lässt sich als Pendant zur ‚Zirkularität der Topik‘ begreifen und bedingt 
eine dynamische Kategorienbildung (vgl. 4.). Annotationen fungieren zugleich 
als ‚arbeitende‘ und als ‚theoretische Modelle‘. Sie können Untersuchungsgegen- 
stand, analytisches Werkzeug und (Zwischen-)Ergebnis zugleich sein. Theoretische 
Vorannahmen kristallisieren sich in ihnen heraus; Muster auf der Ebene des Ge- 
genstands werden sichtbar. Eine bestimmte (Re-)Modellierung der Topik bzw. von 
Topoi schreibt sich demnach in eine analytische Praxis und umgekehrt kann (nur) 
in der konkreten Operationalisierung eine (Re-)Modellierung erfolgen. 


4 Annotationen und die ,Zirkularitát' von 
Verstehens-/Erkenntnisprozessen 
Eine für die Topik anzusetzende spezifische ‚Zirkularität‘ ist bereits in der anti- 


ken Rhetorik angelegt: Sie besteht darin, dass die Topik zugleich als Praxis und 
als Reflexion dieser fungiert, was Bornscheuer als „hermeneutische Zirkelstruk- 
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tur* (Bornscheuer 1976, 43) beschreibt. Topoi liegen auf der Phánomen-Ebene 
der historisch situierten Sprach- und Argumentationsmuster, in denen sich her- 
auskristallisiert, was in einer Diskursgemeinschaft als relevant gilt. Von dieser 
objektsprachlichen Ebene lásst sich die metasprachliche Ebene unterscheiden, 
auf der Topoi die (Re-)Konstruktionen dieser topischen Muster darstellen. Topik 
ist als historiographische Methode durch ,,die vielleicht paradoxe, gewiss aber 
dialektische Eigenart ausgezeichnet, dass sie selbst die Methode anwendet, die sie 
an ihren Objekten beobachtet“ (Hallacker und Schmidt-Biggemann 2007, 27). 

Im vorangegangenen Abschnitt wurde deutlich, dass die mit dem Annotieren 
verbundene Praxis der Benennung maßgeblichen Einfluss auf die Kategorien hat 
und dass umgekehrt ein bestimmter theoretisch abgesteckter method(olog)ischer 
Rahmen vorgibt, was im (Re-)Konstruktionsprozess wie annotiert wird. Diese In- 
terdependenz lässt sich auch als eine ‚Zirkularität‘ begreifen, welche sich im Fall 
von Topoi als Annotationsgegenstánden zwar wie dargelegt spezifisch gestaltet, 
grundsätzlich aber auch in anderen geistes- bzw. literaturwissenschaftlichen Zu- 
sammenhängen virulent ist. 


4.1 Der ‚hermeneutische Zirkel‘ in der 
Literatur-/Geisteswissenschaft 


Die unter dem Begriff des sogenannten ,hermeneutischen Zirkels‘ verhandelten 
Phánomene sind im Folgenden genauer zu betrachten und zu den beschriebenen 
‚Annotations-Zirkeln‘ (die genauer als ‚Annotations-Spiralen‘ zu bezeichnen wären, 
S. u.) ins Verhältnis zu setzen. Beim ,hermeneutischen Zirkel‘ handelt es sich um 
einen äußerst diffusen Phänomenbereich, was Lutz Danneberg in seiner kritischen 
Auseinandersetzung folgendermaßen pointiert: 


„Keinem anderen Konzept, das das Selbstverständnis und die Besonderheit literaturinterpre- 
tierender Disziplinen zum Ausdruck bringen sollte, war in diesem Jahrhundert eine Karriere 
vergönnt wie dem des hermeneutischen Zirkels. [...] Seine Anrufung garantierte die Eigenstän- 
digkeit dieser Disziplinen, bot beliebigen Interpretationspraxen theoretischen Schutz und 
erlaubte, methodologische Nachfragen und Analysen als von vornherein verfehlt abzuweisen. 
Spätestens seit Heidegger ihn in den Rang eines Existenzials erhoben hat und in seinem 
Gefolge Hans-Georg Gadamer den hermeneutischen Zirkel, sekundiert von zahlreichen Lite- 
raturwissenschaftlern, den Textwissenschaften zugänglich gemacht hat, avancierte er zum 
Charakteristikum des Verstehens literarischer Texte schlechthin.“ (Danneberg 1995, 611) 


Während Danneberg spezifisch die mit dem ,hermeneutischen Zirkel‘ verbunde- 
ne Ausprägung eines literaturwissenschaftlichen Selbstverständnisses kritisiert, 
so übersteigt der Wirkungsradius des Konzepts in der Tradition der philosophi- 
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schen Hermeneutik im Allgemeinen derartig eng gesetzte disziplináre Grenzen (vgl. 
Ahrens 2008). Zentral für die inhaltliche Füllung des ‚Zirkels‘ ist im Allgemeinen 
das Verhältnis und die wechselseitige Abhängigkeit von ‚Teil und Ganzem'?» sowie 
‚Verständnis und Vorverständnis‘.?° Dass es angesichts der damit verbundenen 
Reflexion eines Erkenntnisprozesses mit einer (zu erwartenden oder zumindest 
wünschenswerten) Progression eigentlich sinnvoller wäre, von einer ‚Spirale‘ zu 
sprechen, wurde zwar erkannt, hat sich allerdings terminologisch nicht durchge- 
setzt.?? Kritische Betrachtungen des ,hermeneutischen Zirkels‘?® haben insgesamt 
nicht dazu geführt, dass er keine Verwendung mehr finden würde; vielmehr han- 
delt es sich um ein äußerst verbreitetes Modell. 

Aus der bemerkenswerten (Schein-)Plausibilitat des Konzepts, aus der seine 
Präsenz (insbesondere innerhalb der Literaturwissenschaft) u. a. resultieren dürfte, 
lässt sich die Frage ableiten, was seine Relevanz ausmacht. Im ,hermeneutischen 
Zirkel', so die hier vorgeschlagene Deutung, kristallisiert sich der Bedarf eines refle- 
xiven Konzepts heraus, das die ‚zirkuläre‘ Struktur von literaturwissenschaftlichen 
Verstehens- und Erkenntnisprozessen begreift. Eine zu differenzierende Vielzahl 
an Aspekten ist allerdings mit dem Konzept verbunden, sodass die Forderung, 
„die Bezeichnung Hermeneutischer Zirkel zu ersetzen durch eine möglichst genaue 
Beschreibung des jeweils anvisierten Sachverhalts* (Weimar 2007, 32), durchaus 
gerechtfertigt erscheint. 

Der folgende Differenzierungsvorschlag steht in der Tradition vergleichba- 
rer Remodellierungen des ,hermeneutischen Zirkels‘, die allerdings am Singular 
festhalten und für eine ‚Öffnung‘ (vgl. Stierle 1985) oder eine ,Ausdehnung/Erwei- 


25 Vgl. z.B.: „Ein Werk kann nur verstanden werden, wenn der Leser bei der Lektüre der einzelnen 
Textbestandteile schon eine Vorstellung von der Bedeutung des gesamten Textes hat. Vor dem 
Hintergrund dieser Hypothese in Bezug auf den Gesamtsinn werden die einzelnen Teile sinnhaft, 
wáhrend umgekehrt aber gleichzeitig die Lektüre der Textbestandteile auch die Antizipation der 
Bedeutung des kompletten Textes beeinflusst.* (Anthor 2008, 284) 

26 Vgl. Weimar (2007, 31), Ahrens (2008, 282) sowie Antor (2008, 285). 

27 Weder logische Kritik noch Versuche der Prázisierung (in Form einer progredierenden ,Spi- 
rale‘) haben etwas an der verbreiteten Rede vom ,hermeneutischen Zirkel‘ geändert, was sich 
zurückführen lässt auf die „Allgemeinheit oder Vagheit des Konzepts, die es zuläßt, es sowohl 
zu parallelisieren mit den Rückkoppelungsschleifen des sich selbst programmierenden Gehirns 
[Fischer] als auch es zu universalisieren zur Grundform jeder Erkenntnisgewinnung überhaupt 
[Bontekoe] oder aber es ohne Bezug auf die Tradition neu zu füllen [Mones]* (Weimar 2007, 32-33). 
28 So konzediert beispielsweise der begriffsexplikatorische Abschnitt des Artikels im Reallexikon 
der deutschen Literaturwissenschaft, dass es „eigentlich unpassend“ sei, die Tatsache, „[d]aß das 
Verstehen eines Ganzen (z. B. eines Romans) auf demjenigen seiner Teile beruhe und umgekehrt 
das Verstehen der Teile dasjenige des Ganzen voraussetze“ als ,hermeneutische[n] Zirkel oder 
Zirkel des Verstehens“ (Weimar 2007, 31) zu bezeichnen. 
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Abb. 1: Erster Differenzierungsansatz: zwischen ‚Teil‘ und ‚Ganzem‘ in zwei verschiedenen 
‚Zirkeln‘ 


terung‘?? plädieren. Die Argumentation geht in zwei größeren Schritten vor: Zum 
einen wird in der Auseinandersetzung mit der Rede von ‚Teil und Ganzem‘ die 
Unterscheidungsmöglichkeit von objekt- und metasprachlichem ‚Zirkel‘ betrachtet 
(vgl. 4.2, Abb. 1). Darauf baut ein zweiter Differenzierungsvorschlag auf, der zwei 
weitere Formen der ‚Zirkularität‘ unterscheidet: ‚Historizität — Systematik‘ sowie 
‚Induktion - Deduktion‘ (vgl. 4.3). Am etablierten, wenngleich etwas ungenauen 
Begriff des ‚Zirkels‘ - mit dem eigentlich eine (progredierende) ‚Spiralförmigkeit‘ 
gemeint ist — wird bewusst festgehalten, denn es geht nicht darum, den Begriff 
des ,hermeneutischen Zirkels' für obsolet zu erkláren, sondern darum, nachzu- 
vollziehen, was er leistet und ihn kritisch zu hinterfragen, um auf dieser Basis für 
eine mógliche Differenzierung zu argumentieren. 


4.2 Erster Differenzierungsansatz: Zwischen objekt- und 
metasprachlichem ,Zirkel' 


Bisher bezieht man sich zumeist, wenn vom ,hermeneutischen Zirkel* und dem 
„reziproken Verhältnis[ ] von Ganzem und Teil“ die Rede ist, auf die Relation von 
„Kaplitel] zu Buch oder Buch zu Gesamtwerk eines Autors“ (Ahrens 2008, 282). 


29 Vgl. den Abschnitt „Collaboratively expanding the hermeneutic circle“ in Gius und Jacke (2017, 
241f.), besonders die Abbildung „The expanded hermeneutic circle of text understanding“ (Gius 
und Jacke 2017, 242). 
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Relativ selten wird genau eingegrenzt, wie sich die Größe einzelner Beobach- 
tungseinheiten zum Erkenntnisprozess verhält. Dabei erscheint es — nicht zuletzt 
vor dem Hintergrund neuer medial-technischer Bedingungen - notwendig, diese 
Dimension als eine die wissenschaftliche Praxis prágende und auf die anderen 
Dimensionen rückwirkende zu begreifen. Betrifft der ,Teil‘ einzelne Verse und das 
‚Ganze‘ ein einzelnes Gedicht, so gestaltet sich die ‚Zirkularität‘ anders als in ei- 
nem Korpus von dreißig Romanen als ‚Ganzes‘, dessen ,Beobachtungseinheiten' 
Textgruppen oder Einzeltexte, Kapitel, Textstellen oder einzelne Wórter etc. sein 
kónnten. 

Für die Untersuchung des genannten Reiseberichtskorpus mittels der Topik als 
Heuristik hat sich eine Differenzierung zwischen Korpus, Einzeltext und Textstelle 
als heuristisch sinnvolle Untergliederung von Beobachtungseinheiten ergeben. 
Die Textstelle betrifft den jeweiligen Zusammenhang, in dem ein Topos als sol- 
cher aktualisiert und in seiner Funktionalitát erkennbar ist. Der Einzeltext ist eine 
wichtige Zwischendimension innerhalb des Gesamtkorpus, welche den Funkti- 
onsrahmen maßgeblich prägt, da der argumentative Sinnzusammenhang auf der 
Einzeltextebene auszumachen ist und die Korpusdimension lediglich einen analy- 
tischen Zusammenhang darstellt. Wenngleich sich die Beobachtungseinheiten in 
anderen literaturwissenschaftlichen Kontexten anders darstellen (kónnen), so ist 
davon auszugehen, dass die explizite Benennung dessen, was auf Objektebene 
als ‚Ganzes‘ fungiert und welche ‚Teile‘ (in den anzusetzenden Zwischenstufen) 
anzunehmen sind, im Hinblick auf ein bestimmtes Erkenntnisinteresse sinnvoll ist: 
Es handelt sich in jedem Fall um eine präzisere Verständigungsgrundlage als sie 
mit der Annahme eines abstrakten ‚Zirkels‘ zwischen ‚Teil‘ und ‚Ganzem‘ gegeben 
ist. 

Vor dem Hintergrund der Annotationserfahrungen im Kontext der Topik als 
Heuristik erscheint es außerdem notwendig, neben dem objekt- einen metasprach- 
lichen ‚Zirkel‘ anzusetzen: So ist zwischen ‚Teil‘ und ‚Ganzem‘ eine weitere ‚Zirku- 
larität‘ zu konstatieren, die sich zwischen einem gesetzten theoretischen Rahmen, 
den einzelnen Kategorien und einer Gesamtmenge von Kategorien bewegt. Im 
Rahmen der Topik wird dies sehr deutlich, denn die einzelnen Topoi sind nur 
im Zusammenhang als relationales Gefüge zu begreifen, welches wiederum vor 
dem Hintergrund eines bestimmten Topik-Verständnisses (‚Theorie‘) geschieht und 
zugleich auf dieses zurückwirkt. Doch auch in anderen theoretisch-methodischen 
Zusammenhängen lässt sich eine solche ‚metasprachliche Zirkularität‘ beobach- 
ten, beispielsweise wenn im Zuge narratologischer Analysen Kategorien redefiniert 
werden müssen (vgl. Gius und Jacke 2017, 248). Nicht selten müssen in der Relatio- 
nierung der Analysekategorien theoretische Vorannahmen - beispielsweise über 
das Verständnis der Beschreibung in Romanen des 18. Jahrhunderts - nachjustiert 
werden (vgl. Schóch 2014, 7 ff.), was je nach Forschungsdesign zwar nicht zwangs- 
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Abb. 2: Zweiter Differenzierungsansatz: zwischen Historizitát und Systematik, zwischen Indukti- 
on und Deduktion 


laufig den Annotationsprozess beeinflusst, jedoch aus einem solchen hervorgeht 
(und die Basis für weitere Annotationen darstellen kann). 

Die beiden bisher beschriebenen ,Zirkel‘ werden von zwei weiteren ,Zirkeln‘ 
umspannt, deren heuristische Trennung sinnvoll erscheint, um weitere Klarheit 
über den Status von Annotationen in Forschungsprozessen zu erlangen (vgl. 
Abb. 2). 


4.3 Zweiter Differenzierungsansatz: Zwischen Historizität und 
Systematik, zwischen Induktion und Deduktion 


4.3.1 Historizität - Systematik 


In literaturwissenschaftlichen Forschungsprozessen lässt sich eine ‚Zirkularität‘ 
zwischen Historizitát und Systematik beobachten, die verschiedene Facetten auf- 
weist, wobei sie zwischen Objekt- und Metasprache ‚zirkuliert‘. Zum einen ist der 
Gegenstand historisch, sodass zwischen der objektsprachlichen Historizitat und 
der metasprachlichen Systematik zu vermitteln ist. Aus diesem Grund findet sich 
die Historizität auf der Seite des ,objektsprachlichen Zirkels‘, allerdings bewegen 
sich beide spiralfórmig um die ,inneren Zirkel' (Objekt-/Metasprache), denn die me- 
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tasprachlichen Entscheidungen einschließlich des Theorie-Gebáudes sind selbst 
in historischen Kontexten verankert (vgl. Abb. 2 auf der vorherigen Seite). Dies 
gilt für die Toposforschung in besonderem Maße, aber letztlich auch für jüngere 
methodisch-theoretische Gerüste wie beispielsweise die Narratologie mit ihren 
Wurzeln im Strukturalismus. 

Es gibt keine klaren Konventionen der Relationerung von Historizitat und 
Systematik, sondern dies ist in einer jedem Forschungsprozess eigenen Konstel- 
lation von objektsprachlicher Gegenstands-Ebene einerseits und methodisch- 
theoretischem Zugang andererseits neu auszuloten. Verschiedene, eher selten 
explizit gemachte Standards liegen literaturwissenschaftlichen Arbeiten zumeist 
zugrunde, beispielsweise der Anspruch einer ‚Passung‘ oder ,Stimmigkeit' zwi- 
schen ‚Objekt‘ und ‚metasprachlichem Werkzeug‘. In diesem Kontext ist das von 
Gadamer geprägte Konzept der „Horizontverschmelzung“ von Interesse: In der Ver- 
mittlung von Historizität und Systematik gelte es demgemäß, sich dem historischen 
Gegenstand anzunähern, was eine Erschließung des (historischen) Horizonts des 
Textes voraussetzt und letztlich einen unabschließbaren Prozess darstellt (vgl. 
Ahrens 2008, 283). Offen bleibt in der Regel, wie eine solche Annäherung zu opera- 
tionalisieren ist (‚implizites Wissen‘). Auch jenseits einer ‚Horizontverschmelzungs- 
Norm‘ kommt es in der Literaturwissenschaft häufig zu Vermengungen von Objekt- 
und Metasprache, die nicht immer als dem ‚spiralförmigen‘ Prozess dienliche 
Überlagerungen zu bewerten sind (vgl. Fricke 1977, 148 ff.). 

Topoi bergen als zwischen Objekt- und Metasprache stehende Kategorien 
heuristische Herausforderungen und darin zugleich ein besonderes Reflexionspo- 
tential. So zeigt sich eine zusätzliche Problematik im Hinblick auf die Vermittlung 
von Historizität und Systematik darin, dass Topoi als Kategorien historische Re- 
kurrenzphänomene (auf objektsprachlicher Ebene) benennen und zugleich als 
Kategorien eines relationalen Gefüges (metasprachlich) fungieren. Dabei stellte 
sich im Rahmen der (Re-)Konstruktion die Frage, wie die Benennung angesichts 
der verschiedenen ,Zirkel‘ zu gestalten ist. Eine Orientierung an der sprachlichen 
Erscheinungsform des Rekurrenzphánomens auf der Primártext-Ebene wurde 
bevorzugt und demnach beispielsweise die wiederkehrenden Variationen des ,Ma- 
lerischen' bewusst nicht als ,Pittoreske‘-Topos benannt, sondern als Topos des 
Malerischen. Damit sollte eine móglichst induktive, gegenstandsnahe (Re-)Kon- 
struktion der historischen Muster in Verbindung mit einer entsprechend móglichst 
geringen Durchsetzung mit metasprachlichen sowie mehrsprachigen Vorprágun- 
gen gewährleistet werden.?? 


30 Auf die Präsenz des Topos in Reiseberichten und dessen Verankerung in ästhetischen Diskur- 
sen des 18. und 19. Jahrhunderts wurde bereits wiederholt hingewiesen (vgl. z. B. Choné 2015, 257, 
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Abb. 3: Unterschiedliche Annotationsformen in Abhängigkeit vom Forschungsdesign 


4.3.2 Induktion - Deduktion 


Eine weitere ‚Zirkularität‘ lässt sich über zwei komplementäre Prozesse differen- 
zieren, die jeweils ungefähr den epistemologischen Verfahren der Deduktion (vom 
Allgemeinen zum Besonderen oder top-down) sowie der Induktion (vom Beson- 
deren ins Allgemeine bzw. bottom-up) entsprechen. Die Bewegungsrichtung von 
als relativ stabil angenommenen metasprachlichen Kategorien (beispielsweise der 
Narratologie), die auf ein Objekt appliziert werden, geht damit einher, dass diese 
als Annotationshorizont für die Textanalyse greifen — als Analyseraster, das sich 
über ein textuelles Objekt spannt und sich in Annotationen niederschlägt. Die An- 
notationskategorien liegen in diesem Fall bereits zu Beginn vor und verändern sich 
nicht. Genau entgegengesetzt verläuft die Bewegung in induktiven Verfahren, bei 
denen im Prozess des Annotierens erst die Kategorienbildung erfolgt, sodass An- 


Schmidhofer 2010, 356-359). Durch die Benennung als Topos des Malerischen wird eine Überlage- 
rung mit kunsthistorischen und bildungssprachlichen sowie Mehrsprachigkeits-Dimensionen des 
‚Pittoresken‘ vermieden. Vgl. zu einer anderen begrifflichen Entscheidung bei gleichem Befund 
im Hinblick auf die Primärtext-Rekurrenzen: „Japan war das Land des Pittoresken und während 
in der englischsprachigen Japanliteratur der Terminus picturesque jene Bezeichnung darstellte, 
die am häufigsten [...] Verwendung fand, stand in den deutschsprachigen Berichten das Adjektiv 
malerisch an erster Stelle.“ (Schmidhofer 2010, 357) 
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notationskategorien als (Teil-/Zwischen-)Ergebnisse aus dem Prozess hervorgehen 
(vgl. Abb. 2 auf Seite 146 und Abb. 3 auf der vorherigen Seite). 

Idealtypisch lassen sich Forschungsprozesse unterscheiden, die induktiv oder 
deduktiv organisiert sind oder sich zwischen beiden Verfahren bewegen. Es sei an 
dieser Stelle angesichts einer interdisziplinär kaum überschaubaren Rezeption des 
‚Abduktions‘-Begriffs dahingestellt, inwiefern für die letztgenannten der Begriff 
‚abduktiv‘ geeignet ist.?! Wenngleich der Fall der Abduktion wenig klar ist, so 
lässt sich davon ausgehen, dass Annotationen in nicht-deduktiven Forschungs- 
prozessen maßgeblichen Anteil am Erkenntnisprozess?? haben. 3 Für diejenigen 
methodischen Verfahren, die sich zwischen Induktion und Deduktion hin- und 
herbewegen, kann gelten, dass diese den grau markierten ‚Außen-Zirkel‘ (vgl. 
Abb. 2 auf Seite 146) ‚aktivieren‘. In einem solchen ‚Zirkel‘ spielt fortwährendes 
Vergleichen eine zentrale Rolle.** 

‚Zirkuläre‘ Erkenntnisprozesse prägen sowohl geistes- und speziell literatur- 
wissenschaftliche Heuristiken als auch andere Disziplinen wie die qualitative 


31 Inwiefern und unter welchen Bedingungen ein solches Verfahren, das Induktion und Abdukti- 
on integriert, als ‚abduktiv‘ zu bezeichnen wäre, ist innerhalb der Grounded Theory nicht geklärt 
und auch darüber hinaus angesichts einer komplexen Rezeptionsgeschichte des Peirce'schen 
‚Abduktions‘-Begriffs nicht ohne Weiteres zu beantworten (vgl. Strübing 2008, 44-47, vgl. Nantke 
2017, 86 ff.). Die Abduktion steht zwar zwischen Induktion und Deduktion, sodass beispielsweise 
Teilprojekte des hermA-Projekts als induktiv, deduktiv oder abduktiv charakterisiert werden (vgl. 
Gaidys et al. 2017, 122 f.). Allerdings liegt sie doch deutlich auf einer anderen Ebene: Während In- 
duktion und Deduktion logische Schemata darstellen (die in heuristische Bewegungen überführt 
werden können), so stellt die Abduktion eine Etappe in einem idealtypischen Verfahrensablauf 
dar. Vel. dazu beispielsweise die folgende Problembeschreibung: „Die Wege der Entwicklung des 
Abduktions-Begriffs im Peirce'schen Denken erscheinen verschlungen, und dessen unterschiedli- 
che Erläuterungen in Sekundärdarstellungen sind nicht leicht auf einen Nenner zu bringen. Eine 
Schwierigkeit ergibt sich daraus, dass bei den Begriffs-Explikationen die (aussagen-)logische und 
die (erkenntnis-)prozessuale Ebene mitunter in einen Teig geknetet werden.* (Breuer et al. 2019, 
58; Herv. i. O.) Vgl. dazu auch den Beitrag von Lina Franken, Gertraud Koch und Heike Zinsmeister, 
bes. S. 92f. in diesem Band. 

32 Betont man im Kompositum Erkenntnis-Prozess eher die ,Erkenntnis‘-Seite, dann stellen die 
Annotationen tendenziell eher (Zwischen-)Ergebnisse dar; hebt man eher die ‚Prozess‘-Seite hervor, 
so stellen sich die Annotationen als Werkzeug oder bewegliches Raster dar. 

33 Vgl. für eine Relationierung der drei grundlegenden Verfahren Induktion, Deduktion und 
Abduktion mit dem jeweiligen Status von Annotationen bzw. des Annotierens den Beitrag von Lina 
Franken, Gertraud Koch und Heike Zinsmeister in diesem Band. Vgl. dazu auch die Beschreibung 
des hermA-Projekts in Gaidys et al. 2017. 

34 Auch in der Grounded Theory gilt es als zentral, dass kontinuierliches Vergleichen zur Bildung 
gegenstandsbezogener theoretischer Konzepte führt. Vgl. z. B. Strübing (2008, 18). 
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Sozialforschung. >? Im Vergleich mit der im letztgenannten Bereich anzusiedelnden 
Grounded Theory ist auffällig, dass der ‚Zirkel‘ zwischen Induktion und Deduktion 
in der Literaturwissenschaft vergleichsweise wenig untergliedert oder anderweitig 
systematisch betrachtet ist. Geht man davon aus, dass das ‚Kodieren‘ im Sinne 
der Grounded Theory in einiger Hinsicht vergleichbar mit dem literaturwissen- 
schaftlichen ‚Annotieren‘ ist,3° so wäre eine Frage, inwiefern sich verschiedene 
Annotationsphasen angelehnt an die Differenzierung von ‚offenem‘, ‚axialem‘ und 
‚selektivem Kodieren‘ unterscheiden lassen. ?” Während die Literaturwissenschaft 
an dieser Stelle von der stärker differenzierten Modellierung des heuristischen 
Prozesses in der Grounded Theory profitieren könnte, so ist umgekehrt auffällig, 
dass die „hermeneutische Zirkelbewegung als Erkenntnisfigur“ geltend gemacht 
wird: Diese wird explizit als Spirale modelliert, in deren Kern ein Vor-/Verständnis 
(t) liegt, das eine bestimmte Ereignis-Deutung leitet, welche wiederum das Ver- 
ständnis hin zu einem erweiterten Verständnis (t,) verändert, das dann wiederum 
eine Ereignis-Deutung 2 leitet (vgl. Breuer et al. 2019, 55).38 

Lässt man sich auf die mit Visualisierungen einhergehende Komplexitätsre- 
duktion ein, so ist festzuhalten, dass sich der Status von Annotationen je nach 
epistemologischem Verfahren (Induktion, Deduktion oder eine Integration beider) 
ändert und dass für den beschriebenen (Re-)Konstruktionsprozess von Topoi dy- 
namische Annotationskategorien anzusetzen sind (vgl. Abb. 3 auf Seite 148). Topoi 
und Annotationen sind einander in ihrer charakteristischen Scharnierfunktion - 
zwischen Praxis und Theorie, Objekt- und Metasprache oder Untersuchungsgegen- 
stand und -methode - ähnlich. 

Von diesem Befund ausgehend lässt sich anhand der vier ‚Zirkel‘ die Spezifik 
eines Forschungsprozesses visualisieren. Als charakteristisch für die Topik, wie 
sie in der Auseinandersetzung mit Rekurrenzphänomenen der Indienreiseberichte 
um 1900 operationalisiert wurde, kann das Ineinandergreifen von (Re-)Konstrukti- 
onsprozess einerseits und (Re-)Modellierung andererseits gesehen werden (vgl. 


35 Auch Rapp sieht die Verwandtschaft dieser Disziplinen, in denen im Hinblick auf das Annotie- 
ren von Quellen und Bilden von Kategorien Gemeinsamkeiten bestehen, allerdings „derzeit nur 
wenig Austausch zwischen den Communities* (Rapp 2017, 259) herrscht. 

36 Vgl. den Beitrag von Lina Franken, Gertraud Koch und Heike Zinsmeister, S. 90 in diesem 
Band. 

37 ImSinne der für die Theoriebildung erforderlichen Komplexitátsreduktion folgen verschiedene 
Formen des ,Kodierens‘ aufeinander, wobei der Weg von größtmöglicher Offenheit der Annotati- 
onskategorien (‚offenes Kodieren‘), über eine zunehmende Eingrenzung (,axiales Kodieren‘) zur 
schließlich reduzierenden Selektion und Überprüfung (,selektives Kodieren‘) führt (vgl. Breuer et 
al. 2019, 269-286). 

38 Auch in diesem Kontext wird zwar die begriffliche Ungenauigkeit des ‚Zirkels‘ thematisiert, 
aber dieser dennoch nicht verabschiedet (vgl. Breuer et al. 2019, 55; Herv. i. O.). 
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Abb. 4: (Re-)Konstruktion von Topoi und (Re-)Modellierung der Topik 


Abb. 4). Dies kónnte sich in weiteren Operationalisierungen anders gestalten, 
beispielsweise, wenn im Anschluss an diesen (Re-)Konstruktionsprozess die 150 
Topoi als Analyseraster für die Untersuchung von Vergleichskorpora fungierten 
und daher der Prozess eher als deduktiv zu begreifen ware. 


5 Ausblick und Fazit 


Die vorgeschlagene Modellierung literatur-/geisteswissenschaftlicher Erkenntnis- 
prozesse in Form von vier ,Zirkeln‘ versteht sich als Reibungsflache oder Anknüp- 
fungspunkt im Hinblick auf drei verschiedene Aspekte: erstens die Modellierung 
der Bedingungen und Konsequenzen von Annotationspraktiken in konkreten For- 
schungsprozessen, zweitens die Konzeption von disziplinären Spezifika einerseits 
und transdisziplinären Schnittmengen andererseits und drittens Fragen der Trans- 
formationsráume im Zuge von ‚Digitalisierung‘ und ‚(Semi-)Automatisierung‘ von 
Annotationspraktiken. Abbildung 4 veranschaulicht exemplarisch (und sehr redu- 
ziert) anhand des Beispiels der Topik, inwiefern die vorgeschlagene Differenzie- 
rung der verschiedenen ,Zirkel‘ ein Beschreibungsinstrumentarium liefern kann, 
welches ein práziseres Verstándnis des Status von Annotationen in mehrstufi- 
gen heuristischen Prozessen ermóglicht. Die beiden anderen Aspekte seien im 
folgenden kurzen Ausblick skizziert. 

Es wáre zum einen wünschenswert, dass die auf der (Re-)Konstruktion von 
Topoi basierenden Überlegungen dazu beitragen, sowohl transdisziplinäre Schnitt- 
mengen als auch disziplinäre Spezifika von Annotationen über die Pluralisierung 
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der ‚Zirkel‘ differenzieren zu können. Dies könnte einer gelegentlich zu stark in den 
Vordergrund gerückten Betonung disziplinärer Unterschiede oder unmittelbaren 
und ausschließlichen Kopplung von ,Literatur- oder Geisteswissenschaften' und 
‚Interpretation‘ entgegenwirken.?? Aus wissenschaftsgeschichtlicher Perspektive 
wäre näher zu untersuchen, wann der Begriff ,hermeneutisch' im Allgemeinen und 
der ,hermeneutische Zirkel‘ im Besonderen Konjunktur haben. Geradezu mahnend 
aktuell klingen Stierles Worte von 1985: 


„So wird Gadamers Alternative von Wahrheit und Methode bei Marquard zur Alternative 
zwischen Hermeneutik und Code-Knackern. [...] Statt die gegnerischen Seiten im Interes- 
se der Sachhaltigkeit der Argumentation erst einmal beide in ihren überzeugendsten und 
stárksten Ausprágungen vorzustellen, wird der sublimsten Variante der Hermeneutik die 
dümmste Form der Methodenglaubigkeit entgegengesetzt. Zu einer wirklichen Sachausein- 
andersetzung kann es so nicht kommen. Und leicht wáre es wohl, auf der Code-Knacker-Seite 
Gleiches mit Gleichem zu vergelten und in der Hermeneutik eine Theorie der geistreichen 
Inkompetenz zu vermuten. * (Stierle 1975, 344) 


Den ,Code-Knackern' aus den 1980ern stehen inzwischen neue Móglichkeiten zur 
Verfügung, die maßgeblichen Einfluss auf epistemische Praktiken wie das Anno- 
tieren haben und in den genauen epistemologischen Konsequenzen erst weiter 
zu untersuchen sind. Der Beitrag hátte ein weiteres Ziel erreicht, wenn die Diffe- 
renzierung der Zirkel genauer beschreibbar machte, auf welchen Ebenen ‚digitale‘ 
Transformationen, Automatisierungsprozesse etc. liegen. Im Hinblick auf den 
ersten, den objektsprachlichen ,Zirkel‘ ist eine Annahme, dass der Einzeltext als 
(Sinn-)Einheit tendenziell in den Hintergrund tritt (vgl. z. B. Nantke 2019, 212, 215). 
Außerdem ist der Einfluss von Infrastrukturmaßnahmen, der über diesen ‚Zirkel‘ 
auf die anderen wirkt, kaum zu überschátzen (vgl. Schóch 2014, 10f.) Für den 
zweiten, den metasprachlichen ‚Zirkel‘ wird beispielsweise gehäuft die zuneh- 
mende Formalisierung reflektiert (vgl. Rapp 2017, 256). Eine andere Dimension 
ist die, dass Kategorien und ihnen zugeordnete Annotationen durch maschinelle 
Unterstützung besser geordnet werden kónnen.^? Diese Beispiele sollen genügen, 
um anzudeuten, welche Transfermóglichkeiten in den ‚Zirkeln‘ angedacht sind. 


39 Vel. Dannebergs kritisches Resümee: ,,Die Versuche zur Historiographie des ,hermeneuti- 
schen Zirkels‘ verdienen nicht so sehr wegen ihres historischen oder theoretischen Gehalts 
Beachtung. In seiner Rezeption kommt wohl eher der Behauptungswille bestimmter Diszipli- 
nen zum Tragen, der seit dem 19. Jahrhundert bei zunehmender Defensive textinterpretieren- 
der (‚Bildungs‘) Fächer zutage tritt.“ (Danneberg 1995, 620) Vgl. für Anknüpfungspunkte in der 
naturwissenschaftlichen/-philosophischen Methodendiskussion im Hinblick auf Ursprünge des 
‚hermeneutischen Zirkels‘ Danneberg (1995, 618). 

40 So wäre der (Re-)Konstruktionsprozess der 150 Topoi einschließlich einer Cluster- und Kollo- 
kationsanalyse ohne eine Visualisierungssoftware sowie die Möglichkeit, systematisch annotierte 
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Annotationen kónnen, wie der Beitrag zu verdeutlichen versucht hat, als epis- 
temologischer Dreh- und Angelpunkt aufgefasst werden: Sie sind Motor, Vehikel 
und zugleich Kristallisate von Benennungsentscheidungen und wirken damit über 
die Kategorien- auf die Theoriebildung und von dieser als Analyseraster zurück auf 
die systematische Betrachtung der Objekte. An dieser Scharnierstelle verdienen sie 
Aufmerksamkeit für die Reflexion und explizite Modellierung literatur- und geis- 
teswissenschaftlicher Erkenntnisprozesse. Dies erscheint insbesondere angesichts 
einer weiteren methodischen Pluralisierung im Zuge zunehmender ,Digitalisie- 
rung‘ notwendig, um sowohl laufende als auch zukünftige Transformationen in 
ihren heuristischen Konsequenzen genauer zu erfassen und gestalten zu kónnen, 
ohne sie ahistorisch als das schlechthin ,Andere' zu deklarieren. Nicht zuletzt sind 
Annotationen - als transdisziplinäre Kategorien und Reflexionsgegenstände ver- 
schiedenster Forschungszusammenhänge - von einer Greif- und Sichtbarkeit, die 
sie besonders geeignet erscheinen lassen, um über Fragen des (inter-)disziplinären 
Selbstverstándnisses angesichts der genannten Prozesse weiter nachzudenken. 
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Abstract: How can traditional literary scholars be introduced to digital methods? 
And how can the development of annotation tools be specifically oriented to theo- 
ries and methods of Literary Studies like hermeneutics or scalable reading? Manual 
annotation is the easiest way to get started: adding comments, markings, underlin- 
ing and links in the course of close reading may have a counterpart in the digital 
environment that comes with a number of advantages, such as collaborative work 
or the sustainability of annotation. The article introduces the manifold annotation 
modes of the web-based tool CATMA (Computer Assisted Text Markup and Analy- 
sis), which has been developed in Hamburg since 2008 against the background of 
hermeneutic-circular methods of text research and the method of scalable reading. 
With its ‘undogmatic’, stand-off-markup-based approach, CATMA offers all the 
freedom of traditional manual-analogue annotation and allows for multiple, over- 
lapping and even taxonomically contradictory annotations by one or more users. 
CATMA’s markup taxonomies (tagsets) are not limited to binary yes/no, right/wrong 
oppositions, but can also support the operationalization of semantically challeng- 
ing literary concepts. In developing a tool for digital text research such as anno- 
tation, goals should include providing for an easy, low-threshold introduction to 
the method, supporting the unstructured and exploratory bottom-up approach 
characteristic of first-time text encounters and motivating users to apply functions 
unique to the digital environment. The users should be guided through a contin- 
uum of methods in digital text research which range from computer-supported, 
interactive-manual and ‘close’ to algorithm-based ‘distant’ reading. 
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1 Annotation as an introduction to the methods of 
digital text research 


Methods developed within the framework of Digital Humanities or adapted from 
other disciplines for digitally supported investigation of (literary) texts are fre- 
quently characterized by their scarcely limited scope. Moretti (2000, 57) coined the 
term "distant reading" for the analysis of large and very large text corpora with the 
support of computational algorithms and digital tools. Conceptually, the greater 
distance to these text corpora and the quantifying perspective on text data enable 
new and paradigmatically different research questions than the ones common in 
traditional Literary Studies. Huge text corpora and quantifying perspectives on the 
one hand, small amounts of text or individual texts and the analytical proximity 
of close reading on the other characterize the broad field of contemporary Literary 
Studies. It is therefore not uncommon to ask whether the more traditional scholar- 
ship and Digital Literary Studies actually still belong to the same discipline, and 
if so, how this seemingly large gap could be bridged (cf. Trilcke and Fischer 2018 
from a praxeological perspective). 

One way of tackling this problem is to manually annotate individual texts or 
smaller text corpora in a digital working environment. Annotation is understood 
here as the manual or automatic addition of supplementary information usually 
in written form to a primary text or text corpus. In a broad use of the term, itali- 
cization or bold type can already be described as annotations, whereby in this 
form the appearance of the primary text itself is changed in order to open up new 
semantic dimensions. In methodological-praxeological terms, annotation is one 
of the most traditional ways of working in text research (cf. e.g. Moulin 2010). 
Ideally, in addition to manual annotation functions (close reading), the digital 
working environment also offers the possibility of taking a greater distance, i.e. 
integrating a quantifying and relational perspective, in order to smoothen and thus 
facilitate the methodological exchange between traditional and Digital Literary 
Studies within one and the same environment. The span between close and distant 
reading, which only supposedly requires a methodological paradigm shift, thus 
becomes recognizable as a continuum that can be explored in the course of a 
scalable reading (cf. Weitin and Werber 2017). In Digital Literary Studies, this not 
only poses new questions, but also allows old questions to be dealt with and new 
answers to these questions to be found (cf. Horstmann and Kleymann 2019). 
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The web-based tool CATMA! (https://catma.de [27.08.2020]) offers such a pos- 
sibility from a conceptual point of view by providing a multitude of functions. Two 
of these (analysis and visualization) will in the following be addressed only in 
passing. Instead, I will focus on three distinct, yet related concepts which in that 
are fundamental to CATMA's three markup variants: “Highlight”, “Comment” and 
“Annotation”. The basic steps of creating tagsets, which can also be described as 
concept ontologies, and dimensions of collaborative annotation are also important 
to discuss in this context. The reflection of the possibilities for semi-automatic and 
automated annotation of texts in CATMA concludes the article. 


2 Dissemination of digital routines, resources and 
tools in forTEXT 


The DFG-funded research project forTEXT (https://fortext.net [27.08.2020]) at the 
Universitat Hamburg is developing beginner-friendly method descriptions, self- 
learning units and teaching modules for university and school teaching. In addition, 
existing digital text collections and tools — from digitization and digital annotation 
to digitally supported interpretation and visualization of literature - are critically 
discussed. Tutorial videos, literary case analyses, further editable tagsets, libraries 
for secondary literature, a social media strategy (cf. Horstmann and Schumacher 
2019), as well as a comprehensive glossary of basic terms from the field of Digital 
Humanities round off the dissemination model for routines, resources and tools 
for digitally supporting research and teaching projects. The main focus in forTEXT, 
however, is on the two most important activities of hermeneutic text indexing: 
text annotation and text analysis. forTEXT aims to open up direct, low-threshold 
and functional access to digital methods, especially for traditional Humanities 
scholars. Perhaps the biggest problem here is that computer-assisted methods 
have so far often only been superficially adapted to the needs and paradigms of 
Humanities work. This can easily give Humanities scholars the impression that 
the use of computer-assisted working methods necessarily demands a conceptual 
paradigm shift that calls into question the self-definition of, for example, Literary 
Studies as a hermeneutic discipline. forTEXT tries to counter this prejudice. 
Therefore, an important aspect of the work in forTEXT has been the devel- 
opment of the sixth version of CATMA. This web-based collaborative annotation 


1 CATMA stands for Computer Assisted Text Markup and Analysis. The tool is open access and 
open source. 
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Fig. 1: The Annotate module in CATMA 6 


and analysis tool has been developed at the Universitát Hamburg since 2008 and 
currently has over 13,000 user accounts worldwide.? It is designed to support 
annotation and analysis routines that meet the specific requirements of literary- 
hermeneutical text research. The integration of text annotation, analysis and 
visualization within a web-based working environment against the background of 
a conceptual connection to theories of (‘undogmatic’) hermeneutic text research 
(more on this in sections 3 and 4) is unique in the field of DH tools (cf. Meister 
forthcoming). CATMA 6 provides a series of new functionalities? and a modernized, 
even more intuitive interface (cf. Fig. 1) based on Google's widely used and thus 
familiar Material Design. The backend system architecture of the tool was funda- 
mentally re-designed as well and now offers - among other things - versioning of 
all the imported and created data, as well as a project-centered workflow. A CATMA 


2 Of the current 13,033 accounts, 3030 were only used once and 1876 were guest accounts, so that 
8127 users can be assumed (status: December 2019). 

3 This includes, among other things, facilitating the sharing of documents, tagsets and annota- 
tions with other users, the versioning of documents, tagsets and annotations as well as the inte- 
gration of a visualization concept based on the Humanities-oriented Vega Visualization Grammar 
according to the criteria of “Dynamic Data Visualization and Exploration for Digital Humanities 
Research" formulated in the project 3DH (http://threedh.net [27.08.2020]). The visualization lan- 
guage VEGA enables advanced users to parameterize and (re-)code their own data visualizations 
according to their needs and is based on the generic Grammar of Graphics developed by Wilkinson 
(2005). For epistemic dimensions of (digital) visualizations in humanistic work processes see 
Horstmann (2020). 
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project is a workspace in which users with different roles and permissions create 
and exchange text documents, tagsets and annotation collections. On loading a 
project this entire configuration becomes available at once. 


3 Mixed methods, scalable reading and the 
hermeneutic circle 


Since the mid-1980s, quantitative and qualitative methods in social and behavioral 
science have been joined by mixed-method approaches, which not only combine 
the two methods, but also go beyond them, because “the complexity of our re- 
search problems demands answers that contain more than just numbers in the 
quantitative sense and words in the qualitative sense" (Kuckartz 2014, 17).* Mixed- 
Method approaches have since become increasingly transdisciplinary and have 
also found their way into Digital Literary Studies, for example in the project “Read- 
ing at Scale. Mixed Methods in der literaturwissenschaftlichen Korpusanalyse"* at 
the Technische Universitát Darmstadt. 

The theory of scalable reading, 5 which is based on practical experiments, deals 
with the question of how individual text reading can be profitably combined with 
the analysis of larger and large amounts of text" (Weitin 2017, 1).” Underlying this 
metaphorical concept of scalability, which is based on semantic zooming, as inter- 
active maps often allow, is the idea of a connection between distant and close read- 
ing in relation to a collection of texts. Weitin (2017, 2) points out, however, that the 
assumption of being able to switch continuously between the different approaches 
of qualitative analysis and quantitative reading or micro- and macroanalysis is 
misleading. The fact is, that most researchers were generally very familiar with the 
corpus they were investigating in quantifying regards (i.e. they also knew iton a 
micro level). Frequently, the results of a distant reading can only be made fruitful 
for an interpretation against the background of this well-founded knowledge of 
the texts. Therefore, if digital tools want to offer the possibility of interpretation 
and thus use the cognitive potential of scalable reading, they face concrete require- 


4 In the original: “[d]ie Komplexität unserer Forschungsprobleme verlangt nach Antworten, die 
mehr als nur Zahlen im quantitativen und Worte im qualitativen Sinne beinhalten". 

5 Cf. https://www.digitalhumanitiescooperation.de/projects/reading-at-scale/ (02.10.2019). 

6 The term was originally coined by the classical philologist Martin Mueller (2012) in the form of 
a blog entry, where it was already firmly associated with Moretti's *distant reading". 

7 In the original: “Frage, wie sich die Einzeltextlektiire mit der Analyse größerer und großer 
Textmengen gewinnbringend kombinieren lásst". 
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ments. On the one hand they should be able to generate or determine qualitative 
and quantitative data for heuristic and/or interpretational purposes. On the other 
hand, they should offer the possibility to put these data in a fruitful - and indeed 
scalable - exchange. 

These constellations of integrated qualitative and quantitative - and one might 
add: relational — perspectives on a text or a collection of texts in the course of a 
process of understanding (in Literary Studies) can be mapped and traced back 
to a much older method, which forms one, if not the nexus of Literary Studies: 
hermeneutics. Hermeneutic text analysis and interpretation are frequently de- 
scribed as a circular movement. The so-called hermeneutic circle, which occupies 
a central position in the methodological research discourse of Literary Studies, 
is often traced back to a passage in Friedrich Ast's Grundlinien der Grammatik, 
Hermeneutik und Kritik (1808) in which he writes: *The foundational law of all 
understanding and knowledge is to find the spirit of the whole through the indi- 
vidual, and through the whole to grasp the individual; this the analytical, that the 
synthetic method of understanding" (Ast 1808, 8 75, 178).? It was Schleiermacher 
(1838, 36-37) who described this integration of the individual and the whole in 
the cognitive process as a “circle”, a metaphor that cannot yet be found in Ast, 
according to Danneberg (1995). While theoretical approaches such as those of 
Ast, Schleiermacher, Gadamer etc. outline hermeneutics as understanding and 
explaining, the term can be methodologically reduced to the understanding of 
texts in the practice of literary text analysis and be interpreted as an iterative 
“three-stage examination of texts in the form of description, analysis and interpre- 
tation”, as Gius (forthcoming) does.? This constellation, which is fundamental for 
understanding texts, seems to correspond to the concept of scalable reading and to 
the metaphor of zooming in and out of texts or text corpora, on the basis of which 
an interpretation can then be formulated. Thus, both the centuries-old tradition 
of hermeneutics and the more recent approaches of mixed methods and scalable 
reading can be used to derive interrelated requirements for a digital working en- 
vironment for literary scholars. These requirements should be met if one wishes 
to prevent a methodological paradigm shift and facilitate access to digital work — 
understood as supporting and expanding Literary Studies research. Annotation 
is a very good starting point for this process. While manual annotation is best 


8 In the original: “Das Grundgesetz alles Verstehens und Erkennens ist, aus dem Einzelnen den 
Geist des Ganzen zu finden, und durch das Ganze das Einzelne zu begreifen; jenes die analytische, 
dieses die synthetische Methode der Erkenntniss”. 

9 In the original: “dreistufige Auseinandersetzung mit Texten in Form von Beschreibung, Analyse 
und Interpretation”. 
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suited to guide the close reading, other forms of annotation (semi-automatic and 
automated) can productively support the process of zooming out. 


4 Manual digital annotation in CATMA 


4.1 Why undogmatic? - Special features of literary annotation 


The traditional practice of annotating in the Humanities can now more or less be 
methodologically structured and thus related to the principles of hermeneutic text 
comprehension.?? The tradition of digital annotation in Computational Linguistics 
is older than in Literary Studies. The reason for this seems to lie in different require- 
ments when performing markup on literary texts. The concept of the ‘undogmatic’ 
can be used to sum up these requirements terminologically: in a literary annotation 
process one often does not want to make ‘dogmatic’, i.e. rigid, inflexible either-or 
decisions. Rather, it is at times a matter of acknowledging vagueness, polyvalence 
and uncertainty in the metadata in order to be able to represent the plausibility of 
an annotation as an interpretation of the text. Determining ground truths, secur- 
ing inter-annotator agreement or arriving at gold standards is not necessarily the 
prime objective in this field of practice, which is why a (literary) digital annotation 
tool needs to offer greater flexibility. In particular it should enable users to express 
and record contradiction and variance in annotations and stimulate a discourse 
about the respective literary artifact. There is no such thing as the one correct 
interpretation of a literary text, but the interpretation process itself is in principle 
incomplete: Literary Studies are a discursive discipline. This evokes a plurality 
of possible approaches to literary texts that can be classified in more detail with 
regard to at least three aspects. 


1. Methodological variance: literary texts can be investigated in many ways, such 
as structurally, content-wise or content-transcending (cf. Shusterman 1978; 
Folde 201522). Both the focus on content and the method of textual research 
often differ depending on the respective literary approach (cf. Danneberg 1999; 
Bühler 2003; Kindt and Kóppe 2008). 


10 For a general introduction to the method of manual digital annotation see Jacke (2018b). 

11 For the concept of plausibility as a literary evaluation criterion see Winko (2015). 

12 Relevant here is the distinction between content-specifying and content-transcending interpre- 
tations: interpretations can aim to identify non-explicit content elements (i.e. answer non-trivial 
questions about what is true in a fiction) or they can aim to highlight meaning beyond the content, 
e.g. transferred meanings or aesthetic functions. 
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2. Conceptual polyvalence: due to their ambiguity, literary texts can be under- 
stood differently even within one and the same approach (cf. Jannidis 2003; 
Bauer et al. 2010). 5 

3. Epistemic iteration: depending on the individual researcher, the workflow of 
text investigation can run cyclically through different methodological phases 
(cf. Delabar 2009, 63-83; Kocher and Krehl 2008, 99-137; Nünning and Nünning 
2010, 10—21; Puhl et al. 2015, 42-46). 


4.2 Annotation without category? - “Highlight” and 
*Comment" 


The further development of CATMA toward its sixth version focuses on meeting 
these three procedural requirements of methodological variance, conceptual poly- 
valence and epistemic iteration in the Humanities: for instance, a comment func- 
tion and the possibility of category-free annotation are being prepared for the new 
version, which enable unsystematized annotation that frequently appears with 
the first reading of a text. The orientation towards questions and workflows in 
the Humanities not only enables fruitful use in research, but also in both DH and 
Literary Studies teaching. Students not only get to know the method of digital 
annotation in practice, but also start to discuss concepts and taxonomies, which 
underlie the students' concrete research questions or even Literary Studies itself. 

Many annotation tools (including CATMA 5 and earlier versions) only allow 
annotation with the aid of tagsets. In order to annotate a text in this way, however, 
researchers must already have at hand a formalized and structured category system 
with which they want to investigate the text. However, the digital annotation 
method should also be usable for unstructured text exploration. In CATMA 6, 
the two annotation modes “Highlight” and “Comment” are implemented for this 
purpose (cf. Fig. 2 on the next page). 

Highlight: The highlight is an annotation that initially serves exclusively to 
draw special attention to an interesting text passage. Users can mark the annotated 
passage as relevant, even if they only have a vague or no interpretation hypothesis 
at this point.14 By using the analysis functions provided in CATMA, highlighted 
passages can be searched for and displayed as a list. From here they can for example 


13 However, Jannidis argues against a strong concept of polyvalence that excludes the possibility 
of arguing against the plausibility of interpretations. 

14 The modelling of vagueness and uncertainty, which is important for applications in the Hu- 
manities, can also be graph-based, cf. also the discussions in Kuczera, Wübbena and Kollatz 
2019. 


Undogmatic Literary Annotation with CATMA — 165 
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Fig. 2: The “Comment” function in CATMA 6 (wireframe) 


also be annotated further with other annotation forms, once text analysis and 
interpretation are more advanced. 

Comment: In comment mode, text passages can be commented freely. This 
annotation mode makes it possible to record thoughts on a text passage without 
using a structured concept repertoire - i.e. it also enables the modeling of vague- 
ness. In future CATMA also wants to make it possible to simplify the creation of 
tagsets based on comments, for example by analyzing the comments (partially 
automated) and thus using them as hints to latent tag categories. 


4.3 Taxonomy-based annotation - tagset creation and concept 
ontologies 


The third and technically as well as conceptually most comprehensive annotation 
mode in CATMA is called Annotation. This means tag-based markup in CATMA, 
in which text passages are annotated using hierarchically structured concept 
ontologies. The creation of tagsets in CATMA is also undogmatic, i.e. categories 
can be freely selected and freely combined in their relationship to each other (see 
Fig. 3 on the following page). It is therefore not necessarily a prerequisite to make 
annotation categories hierarchically dependent on each other, if this for example 
contradicts one's own theoretical approach. 
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Fig. 3: Sample tagset in CATMA 


The three annotation modes can interlock iteratively and thus also represent the 
so-called ‘hermeneutic circle’ of text investigation on this level. The tag-based 
form of annotation requires the most structuring and formalization. Tagsets cre- 
ated in CATMA can be changed continuously during the annotation process; the 
creation of such a concept ontology leads to very text-oriented work and requires 
the productive reflection of literary theories and methods. 

To what extent is such tag-based annotation compatible with the dynamics of 
text investigation in Literary Studies outlined above? In order for structured anno- 
tation with tagsets to be used not only in the context of heuristic text description, 
but also to depict the scope of text interpretation,“ a number of conditions must 
be met. 

In addition to free generation and iterative revision of tagsets, one condition 
for the use of tagset-based annotation as an interpretation-supporting method is 
the possibility of multiple annotation of the same text passage (whereby the anno- 
tations may be different or even contradictory). On the one hand, this takes account 
of the fact that a text can be examined from different perspectives: for example, 
one and the same text passage can contain intermedial references, address gender 
issues and allow conclusions to be drawn about the author's communicative in- 


15 For the distinction between description and interpretation see Kindt and Müller (2003). 
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tentions. A multidimensional categorization of the text passage must therefore be 
possible. Technically, this can be achieved by standoff markup: When uploading 
a text in CATMA, all characters (letters, punctuation marks, etc.) are numbered 
consecutively. An annotation is then stored in a annotation collection, where all 
annotations included in this collection contain the respective start and end digits 
(character offsets) of the annotated text passage, so that clear referencing is possi- 
ble. This allows users to create any number of annotations, including overlapping 
ones. From a technical point of view, annotations are modeled according to the Web 
Annotation Data Model?* and have the class dataset as body type. The structure is 
a list of key/multi-value pairs and the tag of the annotation specifies the possible 
keys. 

On the other hand, passages of literary texts are often open to interpretation, 
which is why different, sometimes contradictory interpretations can be equally 
valid. For example, (incompatible) assertions about who/what is to be embodied 
by a character appearing in the text may all be plausible." In CATMA 6, free tag 
generation and multiple annotations of a text passage are possible by modeling 
text passages, annotations and tags as nodes in a graph structure that allows very 
flexible linking options. ® 

Since the scope of literary interpretation is not limitless and must be executed 
according to various rules (cf. e.g. Jannidis 2003), an annotation environment 
that supports taxonomy-based interpretation also needs to offer possibilities for 
classifying, explaining and negotiating interpretations. This role is fulfilled in 
CATMA by meta-annotations, which can be used taxonomy-based (as properties 
and values) or as meta commentary. Annotation categories that are used in a tagset 
can be provided with properties to which fixed or ad hoc assignable values can 
be assigned in order to qualify annotations more precisely. The same function is 
performed by free-text-based meta-annotations. Whether meta-annotations are 
used as free comments or on a taxonomical basis can depend on (a) the degree 
of theoretical elaboration of the heuristics of interpretation that are used, (b) the 
context of investigation or (c) the personally preferred way of working. 

While meta-annotations can be used to add analytical categories to a tagset 
on a horizontal level,!? they can also be used to classify interpretative decisions. 


16 Cf. https://www.w3.org/TR/annotation-model/ (27.08.2020) 

17 See, for example, Føllesdal (1979), who presents different interpretations of the foreign pas- 
senger in Ibsen's Peer Gynt, of which the last two (embodiment of Lord Byron or the devil) are 
convincing. 

18 Cf. http://tinkerpop.apache.org/ (27.08.2020) 

19 For example, in the tagset for irony developed by Horstmann and Kleymann (2019) each tag 
could be supplemented with the properties “subject” and "object", in which the values “author” 
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For example, researchers could indicate which literary or interpretation theory 
(e.g. reception aesthetics, poststructuralism or hermeneutic intentionalism, cf. 
Kóppe and Winko 2013) they used to make a particular (potentially controversial) 
interpretative decision. Likewise, contextual information that influences the inter- 
pretation can be listed, or interpretations can be located on a certain-uncertain 
scale.?? Such meta-annotations help to understand hermeneutic annotations in 
the context of theoretical and subjective embedding; they make it possible, at least 
in rudimentary form, to give arguments for interpretative decisions and create the 
conditions for a literary debate on the plausibility of interpretative hypotheses. 
Meta-annotations are particularly necessary when text passages actually contain 
several apparently contradictory annotations. This is especially the case in the 
context of collaborative annotation and interpretation. 


4.4 Dimensions of collaborative work in a digital environment 


In the Humanities, collaborative practices are primarily used in the production of 
editions, introductions, etc., but less in the actual annotation and analysis of pri- 
mary texts (cf. Schónert 1993; Hoppe et al. 2016; Lange 2005). Collaborative annota- 
tion - understood here as the joint work of several researchers on the same text with 
the same question, which requires an increased degree of coordination of the anno- 
tation process itself — is an established method in linguistics to secure high-quality, 
consistent annotation decisions (cf. Wissler et al. 2014). Collaborative work is not 
yet well established in Literary Studies (cf. Rócke 2016); a more cautious approach 
is also advisable when it comes to verifying annotation and interpretation deci- 
sions.?! It makes sense to develop a tagset that is used jointly by all those involved 
in the annotation process and to support this tagset with a guideline that con- 
tains definitions for the individual tag categories as well as examples for their use. 
In the guideline-supported collaborative annotation project heureCLÉA (https:// 
heureclea.de [27.08.2020]) an iterative approach has proven to be appropriate and 
fruitful, in which collaboratively annotating researchers first create their own 


or "narrator" could be specified to determine from which instance the irony emanates and which 
instance is ironized in the annotated passages. 

20 Cf. Genette (1982) in relation to the knowledge of other texts in the case of intertextual ap- 
proaches. For the modeling of uncertainties related to the field of text visualization see Drucker 
2011. 

21 Foran introduction to the method of collaborative literary annotation, its tradition lines and a 
discussion see Jacke (20182). 
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annotations and only then consider the annotations of the other annotators.?? 
In the comparison they can discuss discrepantly annotated passages in order to 
highlight reasons for different decisions (cf. Gius and Jacke 2017). A thorough 
meta-annotation can slim down this complex workflow considerably. Depending 
on the reason, it can be considered whether the respective disagreement should 
be marked as legitimate. In this way, the scope for interpretation in collaborative 
annotation can be preserved and meaningfully limited at the same time. 

While collaborative annotation in CATMA was already possible from version 
4 on, CATMA 6 additionally offers a complex role and rights system that allows 
for a differentiated definition of the group structure even in the conception of a 
collaborative annotation project. Based on a GitLab backend, CATMA projects 
(GitLab groups)? can be created that can have several project members and are 
equipped with text documents, tagsets and annotation collections. Different project 
contexts (e.g. academic research projects with several project leaders, employees 
and assistants, seminar projects in university teaching or teaching projects in 
school teaching) require the definition of different rights for the collaborators. For 
this reason, the following roles can be assigned in CATMA 6 for each project: project 
owner, partner, assistant, observer and student.?^ The roles are provided with fixed 
rights configurations in the fields of project and member administration as well 
as the creation, editing and deletion of text documents, tagsets and annotation 
data. By individualizing the cooperation mode, it is possible to determine how 
much access each project member should have to the data. This functionality can 
therefore also be understood as a measure to carefully restrict a policy of anything 
goes in text interpretation by defining certain rules. 


5 Semi-automatic and automated annotation in 
CATMA 


If the practice of annotation in the Humanities and thus close reading are suc- 
cessfully implemented in a digital working environment in the described way, 
traditional researchers and students can methodically proceed on the basis of the 
expertise unique to their disciplines. At the same time, however, they will also 


22 Cf. the article of Gius, Reiter and Willand in the present volume for a collaborative annotation 
approach. In CATMA it is possible to switch annotation collections to *visible" or *invisible". Thus, 
even a collaboratively annotated document does not have to display all annotations at all times. 
23 Cf. https://docs.gitlab.com/ee/user/group/ (27.08.2020) 

24 The corresponding GitLab roles are owner, maintainer, assistant, reporter and guest. 
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Fig. 4: KWIC view in CATMA 6 for semi-automatic annotation (displaying sounds in Edgar Allan 
Poe’s The Tell-Tale Heart) 


become familiar with the machine logic of computers that do not - like fellow 
researchers or participants in a seminar — happily ‘think along’ and compensate 
for procedural gaps. This agnosticism of the program in relation to any semantics, 
conversely, demands the highest possible degree of accuracy on the part of the 
annotators: an effect that usually leads to productive frictions in terms of both 
content and method. 

In CATMA the manual annotation of individual text passages can be sup- 
plemented by annotation procedures which, on the one hand, require a greater 
distance to the text and, on the other hand, also accelerate the annotation process 
— especially in the case of words or passages that are to be annotated repeatedly 
with the same category. Simulating zooming out of the text within the method of 
annotation lowers the threshold towards quantitatively oriented methods. 

For this reason, semi-automatic annotation takes place within the Analyze 
module in CATMA. With one click, users can create a word list that displays all word 
types occurring in the text or text corpus sorted by frequency (see Fig. 4). From this 
word frequency list, keywords can now be collected that are to be annotated with 
a certain tag category (e.g. all verbs in the different past tenses can be annotated 
with the tag *past"). This KWIC list (keyword in context) can then be annotated 
with the selected tag or several tags at once. This way users can save a lot of time 
with repeated annotations. 

According to the two-way screen postulate developed in the 3DH project 
(http://threedh.net [27.08.2020]) with regards to a dynamic data visualization 
and exploration for Digital Humanities research, CATMA 6 also offers the possibil- 
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Fig. 5: An interactive distribution graph in CATMA for the support of semi-automatic annotation 
(displaying sounds in Edgar Allan Poe’s The Tell-Tale Heart) 


ity of using the implemented visualizations interactively. Thus, the visualizations 
allow jumping to concrete text passages and back or compiling KWIC lists for semi- 
automatic annotations (see Fig. 5). The annotation, analysis and visualization 
components in CATMA functionally interact and therefore conceptually reflect the 
discussed circular-hermeneutic work process of Humanities text research. 

This type of a self-initiated semi-automatic annotation prepares the users for 
an even more distanced way of reading: fully automated annotation. At current 
CATMA supports three such routines: (1) the automatic annotation of grammatical 
tenses in German-language texts, (2) the automatic annotation of temporal signals 
in German-language texts and (3) the automatic annotation of part of speech 
also in German-language texts. The automated recognition of word types and 
grammatical tenses in particular are algorithms widely used in Computational 
Linguistics. It is planned to integrate more of these for other languages in CATMA 
in the near future. The automated annotation of time signals, however, is based 
on a more complex procedure. Guideline-based collaborative annotation in the 
already mentioned project heureCLÉA provided the conceptual framework for 
this: the (collaboratively) annotated medium-sized corpus of German-language 
short stories from around 1900 was used for a machine learning (cf. Bögel et al. 
2015). The very dense annotation of the entire corpus — made intersubjectively 
comprehensible by meta-annotations in relation to (a) time signals and (b) the order 
categories by Gérard Genette (1972) - formed a comparatively small training corpus 
by machine learning standards. Nevertheless, the procedure led to unexpectedly 
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good results. As a consequence, it is now possible in CATMA to automatically 
annotate time signals in other German-speaking corpora. The implementation of 
the automated marking of order relationships is also planned. The more similar 
the texts are to German short stories from the nineteenth/twentieth century (i.e. 
the training corpus), the better the result will be. The algorithm was derived from a 
collaborative annotation process and a comprehensive machine learning routine, 
that was meticulously carried out and accompanied. Automation itself thus can 
take quite a lot of time. The big advantage, however, is that the algorithm can now 
be used very time-savingly, since ‘only’ annotations that the machine assigned 
incorrectly have to be manually corrected afterwards. 

With this step taken, users have travelled the path from the conceptually 
familiar manual annotation of text passages, as it corresponds to more traditional 
ways of researching, over semi-automatic annotation of selected keywords in the 
entire text or in the entire corpus, to the fully automated annotation of selected 
categories — all in one and the same annotation environment. They have thus used 
and linked both methods of close and distant reading in a hermeneutic manner 
and followed a scalable reading procedure. Supplementing text research with 
additional Digital Humanities methods from the distant reading repertoire will 
hopefully now meet fewer reservations on the humanist side than may have been 
the case before. 
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Marijn Koolen and Peter Boot 
Facilitating Reusable Third-Party 
Annotations in Digital Editions 


Abstract: For third-party annotations in the digital edition to be interoperable, 
we argue they should not be anchored in web pages but in the edition's abstract 
information structure. We propose an ontology for the editorial domain based on 
FRBRoo- The ontology distinguishes between the editable domain (works that can 
be edited) and the edited domain (the result of editing), as well as between the 
different FRBR levels. The edition's website, with the help of RDFa (RDF triples 
expressed by means of HTML attributes in the hierarchical HTML structure) can 
identify fragments of works and expressions and describe their relations. Anno- 
tation tools and other clients can use that information to identify the targets of 
annotation and perform other types of intelligent processing. We discuss what this 
facility might mean for annotation in the context of digital editions. We also note 
that the same functionality is desirable in the context of other types of cultural 
heritage material, such as newspapers and audio-visual archives. 


Keywords: Collaboration, Modelling, Digital Edition, Markup, Media Types, On- 
tologies, Semantic Web, Tool, Digital Humanities 


1 Motivation 


Digital scholarly editions tend to follow the print model and are usually static. 
Siemens et al. (2012) argue that few digital editions make use of the developments 
in social media to increase the potential for textual engagement by their readers. 
Social software can make editions more ‘social’, allowing readers the possibility to 
share their thoughts and engage with those of others. One of the main categories 
of social uses they identify is collaborative annotation. Users of current digital 
editions include scholars who take notes during their use of the edition, which 
they incorporate in their publications, but editions rarely allow users to make an- 
notations directly on the digital editions. The need for such support for third-party 
digital annotations in electronic editions has since long been argued for. Robinson 
(2004) described the need for digital editions that can be dynamically corrected, 
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revised and augmented. Boot (2009) described annotations as mesotext between 
the annotated texts and the scholarly publications based on these annotations. 

Annotating is a so-called scholarly primitive in the sense that it is a scholarly 
activity performed by scholars across all disciplines (Unsworth 2001; Palmer et al. 
2009; Anderson et al. 2010). These annotations are made for different purposes, e.g. 
inthe form of personal comments for scholars to structure and guide their thinking, 
in the form of tags or codes to analyse the edited sources and gather data, or in the 
form of links to other research materials to propose relevant relationships between 
the edited text and something else, be it another text, a photograph depicting an 
event described in the text or something else entirely (Boot et al. 2017; Ruvane 
2005). 

In current editions that do not support third-party annotations directly, the 
annotations are made on paper or on a scholar's personal computer, where they 
remain private and invisible to others. But these annotations can be rich sources of 
supplementary material, adding interpretations, explanations and perspectives on 
the edited text, that could be of great value to other scholars. In addition, allowing 
users to annotate a text also can encourage more attentive reading and engagement 
(Pearson et al. 2012). Annotations may be used as procedural signals for future 
attention, placemarkings and aids for memory, in situ working on problems, tracing 
progress or as interpretations (Marshall 1997). Open annotation of web content 
allows reviewing and discussion before, during and after publication, as well as 
fact checking and information extraction (Ruland Staines 2018). 

In this chapter we argue for the value of facilitating third-party annotations 
on digital editions and describe an approach to digital annotation that takes into 
account the needs for scholarly annotations and their use in scholarly communica- 
tion. We also present a prototype tool that implements this approach. By third-party 
annotations, we mean annotations that contribute to the explanatory material 
already present on the edition's website, for the purpose of either private study or 
of publishing them alongside a scholarly article in which they are used, made by 
researchers unaffiliated with the edition project. Given the different purposes of 
annotations and the different forms that they can take, we adopt an inclusive view 
of annotation as an activity that can be part of almost any research activity, as also 
argued by Haslhofer et al. (2009), Melgar (2016), Ruvane (2005) and Walkowksi 
(2017). This includes private as well as shared or public annotations. The anno- 
tations can be loosely or highly structured and have any data type (for example 
purely textual, a link to connect the annotated document to anything else or an 
image). 

The goal of our tool is to offer a low threshold to participate in allowing third- 
party annotations, both for the edition projects that provide annotatable material 
for scholars who perform different types of annotation tasks. The tool is an open 
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source library that can be easily incorporated in edition websites. It uses the W3C 
Web Annotation Data Model, an international open standard format for annota- 
tions derived from the Open Annotation initiative (Hunter et al. 2010). This ensures 
that scholars can extract, reuse and share their annotations. 

There are a number of hurdles in making an annotation tool useful in the 
context of using digital editions for research. These have to do with the difference 
between how researchers think about the edition and how a web browser interprets 
the edition as a combination of text strings and structured layout information. There 
are also a number of consequences to consider in offering a tool for third-party 
annotation on digital editions. We will discuss these in turn. 


2 Annotating digital editions on the web 


When researchers make annotations on an online digital edition of a text, they 
probably think of the annotation as saying something about (a fragment of) the text 
and not about (a fragment of) a specific webpage that is part of the edition’s website. 
But the web browser they use to view the edition only sees that webpage as a block 
of data containing a combination of text strings wrapped in HTML markup, with 
CSS information for styling the text and JavaScript code to make it interactive. This 
difference in perspective leads to two problems for annotation in research contexts. 
First, the user and the tool are ‘thinking’ differently about what the annotation 
refers to, i.e. the problem anchoring the annotation, and, second, about what kind 
of thing that referenced part of the edition is and how is related to other parts, i.e. 
the problem of semantics. 


2.1 The problem of anchoring 


There are already several well-established annotation tools for the web. Seatter 
(2019) compared a range of open annotation tools and environments on their 
flexibility to work with different text formats, the usability of their design and their 
sociality in allowing users to interact with each other through their annotations. 
Several of these tools are open source, allow collaborative annotation and sharing 
of annotations. There are integrated environments like Annotation Studio and 
Google Docs that can work with text documents and there are generic annotation 


1 See https://www.w3.org/TR/annotation-model/ (17.10.2019) 
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tools that can annotate web pages such as Hypothes.is (Perkel 2015),? Pundit 
(Grassi et al. 2012)? and dokie.li.* This immediately prompts the question: why 
do we need another annotation tool? We argue that existing tools have important 
drawbacks: the former cannot annotate web pages; the latter only 'see' the HTML 
structure: they have no ‘knowledge’ of the underlying resource that is displayed or 
of its structure. Nor do they allow annotation of images or multimedia objects.’ 

Annotation tools that run in web browsers typically allow users to select a text 
fragment or some other part of the web page, and add e.g. a comment or a tag. To 
keep track of what that comment or tag refers to, the tool stores it in combination 
with the location of the selected fragment, which is a combination of the URL of 
the webpage, and a so-called XPath expression that identifies the selected HTML 
element(s). This works well as long as the structure and layout of the page do not 
change and the page remains accessible via the same URL. But over the years, 
the HTML structure may change because of improved layout and presentation or 
because of updates in underlying technologies. It is also possible that the whole site 
structure is changed, or even that the site is moved to a different web domain (for 
instance if the organization changes its name). In all these cases, the annotation 
no longer has a valid referent. Moreover, there may be different editions of the 
same text for which the same annotation is relevant. In the mind of the researcher 
who made the annotation, the specific edition on which the annotation was made 
may be irrelevant, but the annotation tool can only refer to the current webpage 
and structure of a single edition. 

As an example, Figure 1 on the facing page shows a letter of the Vincent van 
Gogh Letters edition (Jansen et al 2009).5 It contains two main panels on the left 
and right hand side, and a notes panel in the middle. The left panel shows the 
text (in Dutch) of a letter sent by Vincent to his brother Theo, while the right panel 
shows notes. In each panel, the bar at the top allows users to switch between 
representations, from e.g. the Dutch text to an English translation, another version 
that maintains the line endings of the original letter, or the facsimile. Switching 
between representations changes the HTML structure and text content of the page, 
which illustrates the problem of anchoring an annotation to the HTML structure. 


2 See https:// web.hypothes.is/ (17.10.2019) 

3 See https://thepund.it/ (17.10.2019) 

4 See https://dokie.li/ (17.10.2019) 

5 An exception is Pundit, which can read underlying resource information from RDFa to use an 
object identifier as the annotation target instead of the web page URL, but does not interpret or 
exploit structural information about the object to do semantic reasoning. 

6 For the letter, see http://vangoghletters.org/orig/let001 (17.10.2019). For the edition website see 
http://vangoghletters.org/vg/ (17.10.2019) 
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e) ¢@ © Æ vangoghietters.org/va/letters/et001 /letter.htm 
Van Gogh Museum huygens ing Help | Quick Guide | Updates | Credits | Contact | Home 


Vincent by period v write About this edition 
by correspondent xe ( € Chronology 
van Gogh 


by place E ntext | Concordance, lists, bibliography 


with sketches P t ry Book edition 


635 819 671 7 


] notes 
a, Expression meaning ‘to make the most of an opportunity’. 


es 


[Den Haag, 29 september 187]2. & 1900: 001 101: 1 In the context of this letter, it could also be meant literally. 
dd than, uate 1, Theo attended secondary school in Oisterwijk in the 
PRA P " province of North Brabant, He walked the 6 km to school 
Dank voor je brief, het deed mij genoegen dat je weer goed Date: The Hague, Sunday. 29 Saib ranap irt. The fact that 
aangekomen zijt. Ik heb je de eerste dagen gemist&hetwas september 1872 : — € ee 
mij vreemd je niet te vinden als ik s'middags t'huis kwam. m. a didus : dies 
Wij bebben prettige dagen samen gehad, en tusschen de resend arsine fet ager pace ree 
droppeltjes door a] toch nog al eens gewandeld & het een en — ne, wich incide faguent 
ander gezien. vers, strong winds and occasional thunderstorms (KNMT). 
Wat vreesselijk weer, je zult het wel benauwd hebben op je The trotting races took ‘on Saturday, 28 September at 
wandelingen naar Oisfterwijk. | Gisteren is et rpm nun rir e 
harddraverij geweest ter gelegenheid van de Internationale tentoonstelling (National and Intemational 
tentoonstelling, 2| maar de illuminatie & het vuurwerk zijn Exhibition) held on the Malieveld from 21-30 September 1872 
vit gesteld, om het slechte weer, 5| het is dus maar goed dat on the occasion of the 25th anniversary of the Hollandsche 
je niet gebleven zijt om die te zien. Groeten van de familie Maatschappij van Landbouw (Dutch Agricultural 
Haanebeek 4| &Roos. 5| Steeds Association). See Landbouw-Courant 26 (1872), 21 
zn September, no. 39, p. 162. 
Vincent 3, The programme included a display of fireworks on 


Fig. 1: A letter from the Vincent van Gogh Letters edition 


An annotation made on a paragraph of the Dutch text in the left panel does not 
refer to the same paragraph when it is displayed in the right panel, and may refer 
to an incorrect paragraph in the left panel when e.g. the English translation is 
displayed. 


2.2 The problem of semantics 


The second problem has to do with the difference in semantics between the edited 
text, the digital edition that is based on it, and their representation as a web page. 
During the edition project, the editors typically create multiple, highly structured 
representations of a text. There may be different types of transcriptions and one or 
more translations. The representations also relate the text's physical structure (its 
distribution over pages) and its logical structure (in terms of sections, paragraphs, 
etc.). But to display the text on the web, this rich structure needs to be transformed 
to a markup structure that web browsers understand, i.e. HTML. In this transfor- 
mation, a large part of the edition's structure and its semantic interpretation are 
lost. 

To illustrate this, Listing 1 on the next page shows parts of the TEI/XML repre- 
sentation, made in the edition project, of the same letter shown in Figure 1. It uses 
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Listing 1: Fragment of TEI encoding for a the letter by Vincent van Gogh to his brother Theo. The 
Dutch translation and the notes are not shown. 


1 -— 

2 «div type="translation”> 

3 «pb f=”1r” nz"1" xml:id-"pb-trans-ir-1" facs="#zone-pb-1r-1"/> 

4 «ab»The Hague, 29 September 1872.«/ab» 

5 <vg:whiteline /> 

6 <ab>My dear Theo,</ab> 

7 <ab>Thanks for your letter, I was glad to hear that you got 
back safely. I missed you the first few days, and it was 
strange for me not to find you when I came home in the 
afternoon. </ab> 

8 «ab rend-"indent"»We spent some pleasant days together, and 


actually did go for some walks and see a thing or two whenever 
we had the chance.</ab> 

9 «ab rend-"indent"»What terrible weather, you must feel «hi rend 
="ital”>anxious</hi> on your walks to «rs type-"topo" key="1"> 
Oisterwijk</rs>.<anchor n="7” xml:id-"note-t-1" /> Yesterday 
there were trotting races on the occasion of the exhibition, 
«anchor n-"2" xml:id-"note-t-2" /> .() Ever,</ab> 

10 <vg:whiteline /> 

11 <ab>Your loving</ab> 

12 <ab>Vincent</ab></div> 


both the general TEI namespace and a namespace specific to the Van Gogh edition 
to define the semantics of individual XML elements. To present the letter on the 
web, this is transformed by the web server to create an HTML version. A simplified 
version of the HTML representation is shown in Listing 2 on the next page. Here, 
most of the semantics of the TEI/XML is lost and this is the only information that 
both the browser and the annotation tool have access to. 


3 Making editions annotatable 


Boot et al. (2017) argued that for scholarly annotation, the annotation tool should 
have access to the underlying semantics of the annotated object, as the HTML 
representation has little meaningful connection to it. It should be able to show 
annotations made on one representation of a paragraph in the context of another 
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Listing 2: A simplified version of the HTML representation of the same letter 


1 


w N 


14 
15 
16 
17 


«html xmlns="http: //www.w3.org/1999/xhtm1” 
xml: lang="en” lang-"en"» 
<head> 
<title>To Theo van Gogh. The Hague, Sunday, 29 September 1872. 
</title> 
</head> 
<body class-"letter-page"» 


«div id-"text"» 
«div class="letterbox” id="letterbox1”> 


<div class="p”>The Hague, 29 September 1872.</div> 

<div class-"p"»My dear Theo,</div> 

<div class="p”>Thanks for your letter, I was glad to hear 
that you got back safely. I missed you the first few 
days, and it was strange for me not to find you when I 
came home in the afternoon.«/div» 

<div class-"p indent”>We spent some pleasant days 
together, and actually did go for some walks and see a 
thing or two whenever we had the chance.</div> 

«div class-"p indent”>What terrible weather, you must 

feel <i>anxious</i> on your walks to Oisterwijk.<span 

class-"anchor"»1«/span» Yesterday there were trotting 
races on the occasion of the exhibition,«span 

class="anchor”>2</span> (...) Ever,</div> 

<div class="p”>Your loving</div> 

<div class="p”>Vincent</div> 


</div> 
</div> 


representation ofit, regardless of any changes to web presentation of the letter or 
the URL at which it can be accessed. 


3.1 Anchors and semantics via RDFa 


Both problems of anchoring and of semantics can be addressed with technologies 
from the Semantic Web community. Web search engines like Google, Baidu, Bing 
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and Yandex crawl the web and index pages to provide access, but struggle with 
understanding the content of web pages. The HTML structure itself, as we discussed 
above, provides few hints of what a web page is about. Several technological 
solutions were proposed to alleviate these problems, including two that can be 
incorporated directly in the HTML: microdata and RDFa. Both use HTML attributes 
to add semantic information that can be read by applications but that do not affect 
the display. Compton et al. (2015) describe this as a form of ‘invisible ink’: the RDFa 
is embedded in the HTML, so that the semantic information is directly visible to 
tools that parse that HTML, but invisible in the surface layout that the user sees 
in their browser. The semantics are specified in an ontology that defines what 
the relevant concepts in a certain domain are, what they mean and how they are 
related to each other. For instance, a book shop can use the Store ontology from 
Schema.org" to make explicit that one HTML element contains the physical address 
of the shop, another set of elements specifies its opening hours and a third set 
describes the genres and prices of books available in their catalogues. When sites 
use a shared ontology, search engines can use that to give more intelligent access, 
for instance, showing to a user which of the shops listed in the results are currently 
open. 

In the domain of digital scholarly editions, Compton and her colleagues show 
how RDFa can be used in editions to allow scholars to virtually collaborate with 
each other across texts, even if they are annotating different editions and do not 
know each other. Muri et al. (2016) created a social edition of the Grub Street Project, 
where the semantics ofthe displayed resources is embedded in HTML via Microdata. 
The edition offers no third-party annotation but uses the embedded semantics to 
bring together into a semantically interlinked whole a collection of maps, plans, 
prints and books and pamphlets printed and sold in eighteenth-century London. 
Beyond digital editions, Doush et al. (2012) proposed an ontology in the domain 
of e-learning to embed semantics in a mathematics learning platform via RDFa, 
so that students can semantically search for content using either mathematical 
expressions or names of equations. 

With both Microdata and RDFa as available solutions, we chose to implement 
our approach using RDFa, for a number of reasons. First, microdata only works 
with HTML5 while RDFa can also be embedded in other version of HTML as well 
as in XML. Second, RDFa was adopted by the World Wide Web Consortium as an 
official recommendation, while the Microdata specification is still in draft at the 


7 See https://schema.org/Store (17.10.2019) 
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Listing 3: A HTML representation of the first part of the English translation of the van Gogh letter, 
semantically enriched through RDFa. The HTML elements have attributes that add identifiers and 
type information of parts of the letter based on a van Gogh-specific annotation ontology. 


1 «html xmlns:vg-"http://www. vangoghletters.org/ns/” xmlns:tei- 
"http://www. tei-c.org/ns/1.0"» 


2 <head> 
3 <title>To Theo van Gogh. The Hague, Sunday, 29 September 1872. 
</title> 

4 </head> 

5 <body> 

6 <div class-"row"» 

7 <div about="urn: vangogh: letter-001" typeof-"Letter" vocab= 

"http: //boot.huygens.knaw.nl/annotate/vangoghontology.ttli"» 
8 <p resource- "urn: vangogh: correspondence" typeof- 
"Correspondence" property-"isPartOf"» 
9 «a href-"http://vangoghletters.org/vg/"»Van Gogh Letters 
</a> 
10 </p> 
11 <h2>To Theo van Gogh. The Hague, Sunday, 29 September 
1872.</h2> 

12 <div> 

13 <div> 

14 «h2»0riginal text</h2> 

15 <p property-"hasPart" typeof="ParagraphInLetter” 
resource= "urn: vangogh: letter-001:para-1"» Den Haag, 29 

september 1872.</p> 

16 <p property-"hasPart" typeof="ParagraphInLetter” 
resource= "urn: vangogh: letter-001:para-2"»Waarde Theo, 
</p> 


time of writing.? And third, RDFa makes it easier to use multiple vocabularies to 
describe the same content, which can be hard or impossible with Microdata. 

A semantically-enriched version of the van Gogh letter HTML is shown in 
Listing 3. Annotation tools accessing this HTML can use the semantics of the edition 
to understand what they are annotating (Compton et al. 2014; Boot et al. 2017). 


8 For the RDFa recommendation, see https://www.w3.org/TR/rdfa-core/ (17.10.2019). For the 
Microdata specification, see: https://www.w3.org/TR/microdata/ (17.10.2019) 
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Listing 4: Triples from the ontology 


1 vg:Letter rdf:type owl:Class. 

2  vg:Letter rdfs:subClassOf hi:Work. 

3  vg:ParagraphInLetter rdf:type owl:Class. 

4  vg:ParagraphInLetter rdfs:subClassOf hi:PartOfWork. 


The second «div» element in the «body» element has three RDFa attributes. The 
‘about’ attribute contains an identifier for the letter, ‘urn: vangogh: letter=001’, 
and describes what the webpage is about. The ‘typeof’ attribute contains the value 
‘Letter’ signalling that the main object described in this page is a letter. The third 
attribute, ‘vocab’, specifies the vocabulary or ontology that defines the concepts, 
classes and properties describes in these HTML attributes. In this case, the URL 
http://boot.huygens.knaw.nl/annotate/vangoghontology.ttl is a so-called Turtle 
file that contains the Van Gogh annotation ontology in the format of RDF triples. 

These triples describe the set of concepts, classes, properties and relationships 
inthe domain of the Van Gogh Letters. Each RDF triple consists of an object, a pred- 
icate and a subject. E.g. in Listing 4, the object ‘vg:Letter’ is related to the subject 
*owl:Class' through the predicate ‘rdf: type’, which translates to ‘vg:Letter’ is 
a type of class.? The next triple states ‘vg:Letter’ is a subclass of the more gen- 
eral class ‘hi: Work’. Similarly, the object ‘vg: ParagraphInLetter' is defined as an 
*owl:Class' and it is a subclass of ‘hi: PartOfWork’. 

Combining the ontology and the RDFa statements in the HTML, the identifier 
for the letter, ‘urn: vangogh: letter=001’, is identified as a resource of the class 
*vg:Letter' which is a subclass of ‘hi: Work’. The ‘hi’ prefix is defined in the Van 
Gogh ontology to represent the generic ontology http://boot.huygens.knaw.nl/ 
annotate/genericontology.ttl. This generic ontology defines the general concepts 
of the annotation ontology, such as the classes ‘hi :Work' and ‘hi:PartOfWork’ and 
the property ‘hi: hasPart’. This 'hi:hasPart' property is used for the paragraphs in 
Listing 4 to declare that the letter ‘urn:vangogh:letter=001’ has a ‘hi: hasPart' rela- 


9 The ‘vg’ is a prefix used as shorthand for the Van Gogh ontology URL http://boot.huygens. 
knaw.nl/annotate/vangoghontology.ttl£, while the ‘hi’ prefix is shorthand for the generic edition 
ontology URL http://boot.huygens.knaw.nl/annotate/genericontology.ttl#. The ‘rdfs’ prefix is 
shorthand to identify the semantic web concept http://www.w3.org/2000/01/rdf-schema#. For 
completeness’ sake: ‘owl’ and ‘rdf’ here are prefixes used as shorthand to identify the semantic 
web concepts https://www.w3.org/2002/07/owl#Class and https://www.w3.org/1999/02/22-rdf- 
syntax-ns#type. 
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tionship with the two paragraphs identified by ‘urn: vangogh: letter=001 : para=1’ 
and ‘urn: vangogh: letter=001 : para=2’.1° 

Several of the other HTML elements similarly have properties to semantically 
define parts of the letter, what their type is and how they are related to the letter. 
The ‘typeof’ property can contain one or more types. For instance, a «div» element 
containing the text of a paragraph could have both type ‘Text’ to indicate that it is 
a text, and type ‘ParagraphInLetter’, which is a concept defined in the Van Gogh 
ontology. 

Once this semantic description is embedded in the page, an annotation tool 
could still use the HTML structure and XPath expression to determine the referent 
of an annotation, but it could also use the identifier of e.g. the second paragraph 
as an alternative, and more durable, referent. The main advantage of using the 
paragraph identifier is that, if the structure of the page changes or the page is 
moved to a different URL, the annotation maintains the same valid referent. If an 
alternative editions is available on another website using the same identifiers, the 
same annotation can be shown in that context. 

Listing 5 on the next page is an example annotation in W3C Web Annotation 
format. It has a target property that identifies the fifth paragraph in the van Gogh 
letter (‘urn: vangogh: letter=001 : para=5’) and states that it is both of type Text 
and of type ParagraphInLetter. Within the target is a more specific selector indicat- 
ing that only the word Oisterwijk in that paragraph is selected. The body property 
contains a comment that states that the selected word is the place where Vincent 
van Gogh went to school as a child. Any webpage showing the same letter and 
using the same identifiers can show this annotation in context. 


3.2 The Underlying Ontology 


The embedded RDFa statements solve the problems of anchoring and semantics 
only partly. Recall that the van Gogh letter has both Dutch transcriptions and an 
English translation, each being a representation of the original letter. In biblio- 
graphic terms, they are different expressions of the same abstract work. In some 
contexts, it is important to distinguish between these different representations, 
for instance in the case of an incorrect English translation of a phrase in the letter. 
This is relevant to one of the representations, but not the others. In other contexts, 


10 Note that we use URNs for the identifiers that are similar to those used in the Canonical Text 
Services (Blackwell and Smith 2014). Such a service would allow us to go back from a collection 
of annotations to the text fragments that they annotate, which would be especially useful when 
working with annotations outside the context of the edition website. 
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Listing 5: Sample annotation in W3C Web Annotation format 


1 (t 

2 "@context”: "http://www.w3.org/ns/anno. jsonld", 

3 "type": "Annotation", 

4 "creator": "marijn", 

5 "target": { 

6 "QGcontext": "http: //boot.huygens.knaw.nl/vgdemo/ 
vangoghannotationontology.ttl", 

7 "source": "urn:vangogh:letter-001:para-5", 

8 "type": ["ParagraphInLetter", "Text"], 

9 "selector": { 

10 "type": "TextQuoteSelector", 

11 "exact": "Oisterwijk", 

12 "prefix": "your walks to", 

13 "suffix": ". Yesterday there" 

14 » 

15 J 

16 "body": { 

17 "value": "Van Gogh attended school here", 

18 "purpose": "commenting", 

19 "type": "comment", 

20 "format": "text/plain" 

21 }, 

22 "id": "urn:uuid:a9ef2014-09fc-4de8-9a6b-fa683ae398f1", 

23 "created": "2018-02-24T13:27:13.115715400:00", 

24 } 


it is important to consider that these representations all refer to the same work, 
e.g. to point out that the word ‘Oisterwijk’ in the letter refers to a town in the 
Netherlands. Such an annotation refers to the letters as an abstract work, and 
thereby also to its different representations, regardless of whether the annotation 
is made on the English translation or on one of the Dutch transcriptions. 

The Functional Requirements of Bibliographic Records (FRBR) is a model from 
Library and Information Science that defines o.a. these concepts of Work and 
Expression and how they relate to each other. A bibliographic record of a physical 
book in a library should serve multiple purposes (Svenonius 2000). For instance, 
to identify who the author of the book is regardless of which edition of the book 
is held by the library, the record should describe the book at the Work level. To 
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identify which edition of the book is available in the library, it should describe it 
at the Expression level. To establish whether the copy in the library is a hardcover 
or paperback version, the record should describe it at the Manifestation level. To 
locate the physical copy of the book in the library it should describe it at the Item 
level. 

This model can be used to distinguish between different representations (Ex- 
pressions) of an edited text (the Work), and to define their relationships. An an- 
notation ontology for digital editions should allow online editions to distinguish 
between the edited text (Work and Expression in the editable domain) from the 
outcome of the editing process, namely its various representations (as Expressions 
in the edition domain). 

This FRBR model has a translation in the semantic web domain, to make it 
possible to describe resources on the web at these different levels. FRBRog (Bekiari 
et al. 2016) is a formal ontology of FRBR that defines that for instance an abstract 
workis a class (formalised as F1, Work) and that can have a relation (R9. realised in) 
with an expression of that work (F2 Expression). The FRBRoo model is directly 
connected to the CIDOC Conceptual Reference Model (CIDOC/CRM, LeBeouf 2012), 
a generic ontology for describing concepts and information in cultural heritage and 
museum documentation. FRBRog allows texts, their representations and relations 
to be specified in RDF triples and given explicit semantics. We define our generic 
annotation ontology and the van Gogh ontology as extensions of FRBRgo. In this 
way we can address the van Gogh letter as an abstract work as well as address its 
different representations, and we can describe the relationships between these. 

A formal conceptualization of the editable and edition domains using FRBRoo 
is shown in Figure 2 on the following page, taken from Boot and Koolen (2018). 
The editable domain contains both the abstract Work as conceived and created by 
Vincent van Gogh and the physical Document as the Manifestation" of that Work. 
Each text fragment (Positioned Text Fragment) belongs to both the abstract Work 
and its Manifestation (it is for instance both part of a paragraph and positioned on 
a page). The process of editing produces a number of representations, e.g. a Page 
Image in the form of a digital facsimile representing the Document, a Transcript 
of the text representing the Positioned Text Fragments and a Reading Text that 
realises the abstract Work. 

The connection between our edition annotation ontology and the FRBRoo 
ontology is demonstrated in the triples in Listing 6 on page 191, which show some 


11 Technically, the Manifestation Singleton. 
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P46 is 
composed part of 


Document 
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Singleton/ 

F5 Item 


Work 
F1 Work 


P138 F 
represents vi i Member of 
(has Positioned Text iion 
representation) Fragment tesise Domain 
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editable 
~P138 
represents D : 
(has Publication Ee: 
representation) pec edition 
v v v 
- Transcript (Reading) 
[xa E73 Information Text 
8 object F2 Expression 


Fig. 2: A FRBRoo-based ontology for the editable and edition domains. The concepts in red are 
the FRBRoo classes, the concepts and relations in black are subclasses defined in the edition 
annotation ontology. 


of our classes as subclasses of the Erlangen implementation? of the FRBRoo and 
CIDOC ontologies. + 

With this formalization, the letter and its representations can be semantically 
described, a fragment of which is shown in Figure 3 on the facing page. This 
analysis makes it possible to distinguish between an annotation on the abstract 
work (applies equally to all the representations of the work) and an annotation 
that only applies to a specific representation. 

The prototype annotation tool we developed ** allows users to specify whether 
their annotation refers to the representation that is visible in the web page, or 
to the underlying abstract work. When a specific representation is loaded in the 


12 http://erlangen-crm.org/ (1710.2019) 

13 From the edition annotation ontology: 
http://boot.huygens.knaw.nl/vgdemo/editionannotationontology.ttl (17.10.2019) 

14 The Scholarly Web Annotation tool consists of a client that can be loaded in edition webpages 
and a server that runs in the background to store and retrieve annotations, see https://clariah. 
github.io/scholarly-web-annotation/docs/development/ (17.10.2019) 
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Listing 6: Our ontology's classes as subclasses of FRBRog and CIDOC/CRM 


1 hi:AnnotatableThing rdf:type owl:Class ; 
2 rdfs:label "AnnotatableThing" ; 
3 rdfs:subClassOf ecrm:E71. Man-Made Thing ; 
4 rdfs:comment "E71 can be either E24 Physical Man-Made Thing 
(i.e. documents) or E28. Conceptual Object (i.e. works)" . 
hi:EditableThing rdf:type owl:Class ; 
rdfs:label "EditableThing" ; 
rdfs:subClassOf hi:AnnotatableThing ; 
rdfs:comment "Realm of things that can be or have been edited" 
hi:EditionThing rdf:type owl:Class ; 
rdfs:label "EditionThing" ; 
rdfs:subClassOf hi:AnnotatableThing ; 
rdfs:comment "Realm of things that result from editing" 
hi:Work rdf:type owl:Class ; 
rdfs:label "Work" ; 
rdfs:subClassOf efrbroo:F1 Work ; 
rdfs:subClassOf hi:EditableThing ; 
rdfs:comment "Works that are edited" 
hi:PartOfWork rdf:type owl:Class ; 
rdfs:label "PartOfWork" ; 
rdfs:subClassOf hi:EditableThing ; 
rdfs:subClassOf ecrm:E89 Propositional Object ; 
rdfs:comment "Consists of parts of works that are edited" 
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Original transcript Abstract work Translation 


hi:hasRepresentation hi:hasRepresentation 
urn:vangogh:letter=001 urn:vangogh:letter=001 
ne urn:vangogh:letter=001 
repr=original repr=translated 


rdf:Type 


hi:EditionText vg:Letter hi:TranslatedEditionText 


urn:vangogh:letter=001 hishasRepresentation urn:vangogh:letter=001 hishasRepresentation urn:vangogh:letter-001 
para=1:repr=original para=1 para=1:repr=translate 


hi:EditionText vg:Paragraph hi:TranslatedEditionText 


rdf:Type 


Fig. 3: A semantic description ofthe van Gogh letter as abstract work (middle) and the Dutch 
transcription (left) and English translation (right) using the Van Gogh Annotation ontology 
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webpage, the annotation tool scans the RDFa statements and ask the annotation 
server to retrieve all annotations on the resources described. 

There are different ways in which the relationships between an abstract work 
and its representations can be made available to the annotation tool. The advan- 
tages and disadvantages of the various approaches we have tried are described in 
a separate article (Boot and Koolen forthcoming). 


4 Facilitating third-party annotations 


Although the technical approach described in the previous sections makes it possi- 
ble to enable third-party annotation on digital editions, it bears considering what 
the potential consequences and impact are, for maintainers of the edition, for 
scholars annotating it and for other users. Should any user be able to annotate 
or should this be restricted? Should annotations be private and only visible to 
the creator of the annotation or to anyone using the edition? Where should the 
annotations be stored and who owns them? If only certain annotations are relevant 
to a wider set of users, how should a selection be made and who is responsible for 
this? What is the potential impact of showing third-party annotations alongside 
the edition for its users and for its maintainers? 


4.1 The consequences 


Given that social media technologies are present in almost every part of our online 
world, one may wonder why they are still almost completely absent from digital 
scholarly editions. It is possible that digital editors have not considered such tech- 
nologies as relevant to their editions, or their implementation to be too expensive 
to include. Price (2016) discusses questions of quality control in the context of the 
Walt Whitman Archive: *How can the Archive best negotiate the roles of scholarly 
specialists and interested users, and in particular, how can quality control be 
established without discouraging user involvement?" In other words, editorial 
reticence may also be motivated by the fear of users adding inappropriate annota- 
tions, or having popular editions flooded with annotations that together make it 
difficult to see the forest for the trees. On top of that, third-party annotations may 
be undesirable for other reasons. Some may be highly idiosyncratic annotations 
that are only relevant to a very specific research topic. There may be annotations 
that are nonsensical or even a form of vandalism similar to some edits made on 
Wikipedia pages. 
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Many modern web platforms that allow users to create their own content offer 
options to keep content private, share it with specific others or make them publicly 
available. Such a permission model is relevant for third-party annotation as well. 
It is important that annotations can be kept private. Private annotations are often 
used by scholars for personal reflection (Bradley 2012) to structure their own think- 
ing, keep track of their reading and guide the writing process. Annotations may 
become irrelevant or obsolete when shifting from exploring many potentially rele- 
vant materials to a narrower set of selected text that will be used in the subsequent 
analysis phase. As McCarty argues, the act of annotating is a form of 'knowing in 
doing' (McCarty 2020). 

Yet some annotations may be more permanently relevant, and to more than just 
the creator and their immediate collaborators. If a researcher makes annotations 
on an edition and uses them in a research publication, they can decide or be urged 
to publish those annotations alongside the published article (Boot 2009). This 
will affect scholarship around digital editions, as it makes the thought processes 
of the authors more visible, leading to different interpretation or appreciation of 
their arguments, and even show what considerations ended up being left out of 
the publication. Moreover, this makes it possible for others to cite annotations. 

Furthermore, annotations can provide broadly useful background information 
that the edition maintainers would like to incorporate as official enrichment or 
additional metadata for the edition. They may want to work with the creators of 
such annotations to incorporate them in the edition as curated data. Crowdsourcing 
annotations for digital editions can be a way to gather new knowledge and multiple 
perspectives on a text (Tonra and Barr 2014). It can also bea way to deal with budget 
constraints in cases where there is more material to annotate than there are means 
for in a project (Farley 2012). 

This suggests that third-party annotations can transition from being ‘for writ- 
ing’ (a form of ‘knowing in doing’ through the act of making the annotation) to 
being 'for reading' by others (by reading the annotation in context as a form of 
*knowing in using") (McCarty 2020). In making third-party annotation possible 
for a certain digital edition, a permission model could be added that allows the 
creator of an annotation to update the permissions and share them with other 
users or make them entirely public.” In this transition, it may be necessary to 
revise annotations to make them comprehensible by others, or to create a sep- 
arate set of public annotations while keeping the original annotations private. 


15 Our implemented prototype already has options to make annotations private or pub- 
lic. We have drafted some further considerations and options for dealing with permis- 
sions. See https://clariah.github.io/scholarly-web-annotation-client/docs/discussion/handling- 
permissions.html (17.10.2019) 
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This is due to the changing nature of annotation while scholars move through 
the different phases of their research, from exploration to assembling materials, 
analysis and finally presentation (Melgar et al. 2017). In early phases scholars tend 
to use annotation more for bookmarking and commenting but gradually shift to 
more structured coding, analytical memos and linking between different (parts 
of) objects. An additional challenge in making annotations comprehensible and 
reusable for others, is to make clear what was the motivation and context of its 
creation: “An annotation created in a crowdsourcing context without the use of a 
formal ontology is suitable for other research questions than the same annotation 
created by a disciplinary expert who applies a related ontology" (Walkowski and 
Barker 2014). 

Enabling third-party annotations can turn digital editions into living docu- 
ments with ongoing communication that is visible in the context of the edition 
itself. Further thought and experimentation is needed to establish guidelines for 
how to deal with this. For very popular editions used by a wide audience, third- 
party annotations may result in creating an impenetrable mess that makes them 
hard to use. It might be necessary to give third-party annotators no option to make 
their annotation public, at least not directly. A more flexible solution would be 
to design ways to filter and organise annotations and being able to switch on or 
off different sets of annotations. One option is to let users specify their interest 
in different types of annotations or annotations on specific parts of an edition. 
In the domain of astronomy, the AstroShelf platforms addresses this by letting 
users create a personal profile in which they can register their interest in parts 
of the data, such as particular types of observations, regions of space or specific 
stars (Neophytou et al. 2012). The platform has a live annotation view module that 
notifies users of new annotations that target that data. Another way would be to 
have recommended subsets of annotations displayed as defaults, with others only 
visible upon request. 

Edition maintainers may be interested in a feedback loop in which the ongoing 
communication around the edition can be incorporated as an official, curated 
part of the edition (Farley 2014). Edition maintainers could offer users specific 
annotation types for such purposes (for example for correcting transcriptions or 
for associating names in a correspondence with Wikipedia entries). Of course, this 
depends on the available resources for maintaining such a process and on the 
expectation of getting relevant annotations. 

However, there is a middle ground between private annotations and public 
annotations. When project groups or classes can share annotations on an edition 
within their groups, this already has the effect of creating a living document and 
an alternative channel of scholarly communication; it is fundamentally different 
from sending annotations via email or keeping a shared but separate annotation 


Facilitating Reusable Third-Party Annotations in Digital Editions — 195 


document or database (Holub et al. 2014). The focus widens from ‘reader-content’ 
interaction to include ‘reader-reader’ interaction (Siemens et al. 2017). Being able 
to see the annotations of collaborators in the context of annotated object creates a 
direct connection that leads to a different engagement with the text (Pearson et al. 
2012). 

The right level of sharing and displaying third-party annotations no doubt 
depends on the nature of the edition, the edition project and the expected audience. 
Therefore, the approach we propose here allows edition maintainers to choose in 
what way and to what extent annotations can be shared with others. The same 
goes for the ability to make fine-grained distinctions between different levels of 
representations and the underlying abstract works. Being able to make fine-grained 
distinctions between abstract work and representations and their relationships 
may be appropriate for scholarly users. For other users, the increase in complexity 
may confuse them and drive them away. On the spur of the moment, they may not 
want to think deeply about whether an annotation is relevant only to a specific 
representation or to others as well. Forcing them to choose can break their flow 
of active reading, while making it optional and using a default level can result in 
annotations inappropriately targeting irrelevant representations. This is again a 
question where we need much more experimentation. 


4.2 Beyond digital editions 


The presented annotation approach is relevant beyond digital scholarly (text) edi- 
tions and can be used with images and multimedia objects as well (Melgar et al. 
2016). For instance, it can relatively easily be implemented in digital archives of 
historical newspapers, television and radio broadcasts and other digitized or digi- 
tal born materials relevant to research. Within the context of the Dutch research 
infrastructure project CLARIAH!6 we are currently experimenting with making 
this approach to annotation available for the historical newspaper archive at the 
Dutch National Library and are implementing the prototype in the Media Suite, !7 
which gives access to the archive of Dutch public television and radio broadcasts 
of the Netherlands Institute for Sound and Vision,!® where similar issues of re- 
presentation and anchoring play a role. A television program can have multiple 
video representations at different resolutions, separate audio tracks and speech 


16 Common Lab Research Infrastructure for the Arts and Humanities, see https://clariah.nl/ 
(1710.2019) 

17 See https://mediasuite.clariah.nl/ (1710.2019) 

18 See https://beeldengeluid.nl/en (1710.2019) 
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transcripts and temporally-coded textual summaries or scripts used for subtitles. 
Annotations may refer to the program as abstract work or to a specific represen- 
tation. For instance, an annotation on a part of the audio track that transcribes 
what is said in the segment, may be relevant to align with the video track as well. 
An annotation that indicates that there is a glitch in the sound, is less relevant to 
connect to other representations. 

Just as annotating is a scholarly primitive activity performed all across the 
Humanities, the problems of anchoring, semantics and representation are also 
relevant across different types of materials studied across Humanities disciplines, 
as is the need and desire for third-party annotation. 


5 Conclusion 


Online scholarly editions have the potential to engage and enhance scholarly 
discussion of its content and structure and become a living edition by allowing 
third-party annotation. We argue that third-party annotation functionality inte- 
grated in an online edition can engage users through more active reading and 
through more visible scholarly communication in the context of the edition. But to 
do this effectively, it is essential that annotations can refer to edition components 
and that the components of the edition are described semantically. 

We deal with these issues using open semantic web standards and an ontology 
of the domain of scholarly editing. We have developed prototype annotation client 
and server technology that can easily be integrated in existing online editions. 

A third-party annotation facility can shape scholarly communication around 
the edition. This requires decisions on roles and permissions of annotators, admin- 
istrators and users as well as a careful consideration of the user interface. We have 
offered some suggestions to address these questions, but experimentation with 
actual editions and their users is obviously needed, in the domain of the scholarly 
edition as well as for other media published on the web. 
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1 Automatisierte Annotation und Alchemie 


Das Werk des Iatrochemikers Michael Maiers (1568-1622) umfasst ungefähr 3500 
PDF-Seiten.! Alchemischer Sprache haftet allerdings der Ruf an, voller Geheimnis- 
se und ‚verbal deceits‘ zu sein.? Denn Leserinnen und Lesern ohne Vorerfahrung 
erschließen sich die sogenannten alchemischen Decknamen nicht ohne Weite- 
res; sie brauchen zusátzliche Information, um diese verstehen zu kónnen.? Bei 
Decknamen handelt es sich um eine Form indirekter Sprechweise, die typisch für 
alchemische Sprache ist, bei der chemische Substanzen durch bildhafte Meta- 
phern umschrieben werden, wie etwa die Bezeichnung von Vitriol als ,der grüne 
Lówe'. Wie kónnen nun diese 3500 Seiten auf eine effiziente Art und Weise dem 
Leser zugänglicher gemacht und ihre Decknamen, zumindest zum Teil, aufgelöst 
werden? Im Folgenden soll gezeigt werden, wie (halb-)automatisierte Annotation 
der Vorkommen solcher Signalwórter im Text in Verbindung mit einem Thesaurus, 
der zusátzliche Informationen zu den Konzepten enthált, unter Verfolgung eines 
regelbasierten Ansatzes dazu herangezogen werden kann. Der Beitrag reflektiert 
dabei die Herausforderungen und theoretischen Implikationen, die sich bei einer 
solchen (halb-)automatisierten Annotation ergeben. 

Mit der digitalen Annotation wird es einerseits móglich den geisteswissen- 
schaftlichen Aspekt der kontextualisierenden, erklárenden Hinzufügung maschi- 
nenlesbar zu machen. Andererseits bietet die automatisierte Annotation den Vorteil 


1 Überblicksartig zur Person Michael Maiers: Leibenguth (2002); Tilton (2003). Bei der Záhlung 
werden PDF-Seiten angeführt, da in Maiers Originaldrucken leider nicht alle Seiten nummeriert 
sind. Nachdem die Anzahl der nicht nummerierten Seiten aber recht grof ist, würde sich bei der 
ausschließlichen Zählung nummerierter Seiten eine deutlich zu geringe Anzahl ergeben. Hierbei 
ist natürlich zu beachten, dass dadurch auch leere Seiten, Scans von Einbánden, Titelblátter mit 
Informationen zum Datengeber des Faksimiles, etc. miteinberechnet wurden. Die genaue Anzahl 
an PDF-Seiten wurde, um dies auszugleichen, daher um ca. 596 verringert. Es handelt sich bei der 
Angabe nur um eine Approximation, also um keine absolute Seitenanzahl. 

2 Einfiihrend zur Alchemie: Principe (2013). Die heutige Alchemiegeschichtsschreibung folgt zu 
großen Teilen der sog. ‚New Historiography of Alchemy‘, die differenziertere Begriffsverwendungen 
und vor allem das Absehen von Anachronismen sowie überkommenen Forschungstopoi fordert. 
So handelt es sich bei der Bezeichnung der alchemischen Praktiker des 17. Jahrhunderts als 
,Alchemisten' eigentlich um einen Anachronismus, da diese sich selbst als ‚Chymiker‘ bezeichneten. 
Im Zuge dieser Begriffsrevidierung wurde auch dazu aufgerufen, gewisse Unterstrómungen wie 
etwa die sog. transmutatorische Alchemie (Chrysopoeia) von der der Artzalchemisten (Iatrochemie) 
zu unterscheiden, wenn móglich und sinnvoll. ,Alchemie‘ wird aber dennoch weiterhin als Uber- 
und Sammelbegriff verwendet. Vgl. dazu Principe und Newman (2001). 

3 Zu alchemischen Decknamen, vgl. Lippmann (1919); Ruska und Wiedemann (1924); Principe 
(1992); Newman (1996). 
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einer großen Ersparnis an Zeit und Ressourcen, wenn die Zahl der Vorkommen 
so hoch wie bei Maier ist, wo man pro Seite mit 5-10 zu annotierenden Wortern 
rechnen muss. Schließlich wird auch eine quantitative Textanalyse sinnvoll, die 
bei einer hándischen Annotation zu viel Zeit und Ressourcen kosten würde. 

Alchemische Texte bedienen sich einer Fachsprache, die für den modernen 
Leser nicht ohne Weiteres verstándlich ist. Dazu muss für historische Alchemisten 
implizites Wissen für moderne Leser explizit gemacht werden. Zunächst stellt sich 
hierbei allerdings die Frage, welche Aspekte alchemischer Texte sich überhaupt 
dazu eignen, für eine zumindest halbautomatische Annotation formalisiert zu 
werden. Die historischen Autoren haben alchemische Decknamen auf innovative 
Art und Weise verwendet, und auch umfangreich neue Worter geschaffen, doch 
gehóren sie zumeist einem immer relativ áhnlichen finiten Fundus an. Einige 
solcher Allegorien verfestigten sich sogar zu stehenden Ausdrücken. Auch die 
Neologismen folgen den typischen Regeln alchemischer Bildhaftigkeit, indem die 
Beziehung zwischen Zeichen und Bezeichnetem in einer gemeinsamen, analogen 
Eigenschaft besteht. Ein reprásentativer Fundus solcher Decknamen lásst sich 
demnach in einem Thesaurus formalisieren. Die Annotation solcher Instanzen 
von implizitem Wissen‘ soll als explizierende Hinzufügung dienen. Annotation 
mithilfe von Natural Language Processing und Wissensreprásentation mithilfe 
eines Semantic Web Thesaurus als Knowledge Organization System kónnen Licht in 
das „dunkle Vokabular“ (obscurum vocabulum) der Alchemie werfen, um implizites 
Wissen dieser Epoche heutigen Leserinnen und Lesern wieder besser zugänglich 
zu machen. 

Die Annotation soll für den menschlichen Leser nützlich, aber auch für maschi- 
nelle Analyse effektiv verwendbar sein. Sie soll so gut als móglich automatisierbar, 
auf ein größeres Korpus alchemischer Literatur anwendbar sein und trotzdem 
geisteswissenschaftlichen Qualitátsansprüchen genügen. Doch beziehen sich An- 
notationen impliziten Wissens nicht auf einen für uns greifbaren Gegenstand, 
sondern einen historischen „Wissenshorizont“, den wir bestenfalls rekonstruieren 
kónnen und wahrscheinlich im Prozess der Annotation auch zum Teil konstruie- 
ren müssen. Wie können Annotationen dabei möglichst ‚objektiv‘ bleiben, aber 
dennoch aussagekráftig genug sein, um zur Disambiguierung uneindeutiger al- 
chemischer Decknamen beizutragen? Eine weitere Herausforderung im Fall der 
Annotation impliziten Wissens stellt die Tatsache dar, dass das implizite Wissen 
in Konzepten (vgl. SKOS concepts) besteht, es im Text allerdings nur in Form von 
Wórtern bzw. Zeichenketten (vgl. SKOS labels) vorliegt (vgl. W3C-Consortium 2012). 
Wie und inwieweit kann Annotation diese Differenz sinnvoll oder überhaupt über- 


4 Zum Begriff des tacit knowledge: Polanyi (2009). 
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brücken? Diese Fragen sollen an konkreten Beispielen alchemischer Symbole und 
Decknamen bei Michael Maier diskutiert werden. 

Denning schrieb 1985 „The fundamental question underlying all of compu- 
ter science is what can be automated?'* (Denning 1985, 16) Beynon, Russ und 
McCarty stellen fest, dass es in Hinblick auf die Fortentwicklung von Technolo- 
gie zweifellos sinnvoll sei, diese Frage zu stellen, aber meinen, sie betreffe und 
befórdere geisteswissenschaftliche Erkenntnisinteressen nicht (vgl. Beynon et al. 
2006, 150). Im Folgenden soll argumentiert werden, dass sehr wohl auch genuin 
geisteswissenschaftliche Analyseprozesse zumindest zum Teil automatisiert wer- 
den kónnen, wenn man sich auf Aspekte beschránkt, die sich zu einer digitalen 
Formalisierung eignen. Zunáchst wird eine Methode vorgestellt werden, die unter 
Hinzunahme eines formalen Wissensmodells über semi-automatische Annotation 
zu einer quantitativen Textanalyse bestimmter durch einen Thesaurus im Vorhin- 
ein spezifizierter Begriffe und ihrer Beziehungen untereinander führt. Dabei wird 
auf die Anforderungen eingegangen, die sich an die Erstellung eines solchen The- 
saurus ergeben und die Herausforderungen, die darin liegen, Zeichenketten, die 
sich in Texten finden mit den Konzepten eines Thesaurus zu verbinden. Es wird die 
Frage angesprochen, warum sich gerade (halb-)automatisierte Annotation dafür 
eignet und nicht etwa bereits bestehende Methoden der quantitativen Textanalyse 
dazu ausreichen sowie die Frage, ob solche Annotation zum Erkennen literari- 
scher Kontexte anwendbar ist. Weiterhin wird der genaue Ablauf der Annotation 
und eventuell dadurch móglich werdenden Disambiguierung erklárt sowie die 
Fragen nach Subjektivitát und Evaluierungsmóglichkeiten solcher Annotationen 
angesprochen. 


2 Zur Methode: Automatisierte Annotation 
mithilfe eines Thesaurus 


Typisch für alchemische Texte ist ihre verrátselte Sprache, die sich besonders in 
der Verwendung von Symbolen und Decknamen äußert. Diese sollen im Zuge einer 
digitalen Edition über Verweise auf einen Symbolthesaurus zumindest teilweise 
erklárt oder verstándlicher gemacht werden. Zudem sollen allerdings auch Be- 
ziehungen zwischen den Symbolen und Decknamen sichtbar gemacht werden. 
Die Wórter werden hierbei als ,Passwórter', als Ideentrager (vgl. Baudrillard 2000, 
9-10) verstanden, in deren Hintergrund sich ein Wissenssystem konstituiert, das 
in einem Thesaurus abgebildet werden kann. Alchemische Fachsprache, in ihrer 
uneigentlichen Rede, beinhaltet ,implizites Wissen‘ (tacit knowledge). Doch dieses 
implizite Wissen kann zum großen Teil durch Methoden der digitalen Wissensre- 
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prásentation wieder explizit gemacht werden (vgl. Collins 2010). Linked Data unter 
Nutzung von Semantic Web Technologien stellen eine dafür besonders geeignete 
Form dar (vgl. Oldman et al. 2016, 258, 266-267). 

Eine wichtige Aufgabe des Vorhabens ist, aus den Indices und Registern der 
Werke Michael Maiers einen Thesaurus zu erstellen, der Maiers ‚Wissenshorizont‘ 
móglichst verlásslich wiedergibt. Der zu erstellende Thesaurus dient als Knowledge 
Organization System (KOS), das mit dem Semantic Web-Vokabular SKOS (Simple 
Knowledge Organization System, W3C-Consortium [2012]) kodiert werden soll. Das 
W3C hat SKOS als Standard vorgeschlagen, und das Vokabular ist in leicht abge- 
wandelter Form auch als ISO 25964 normiert (vgl. Stock und Stock 2008, 228-255). 
Auch der Alchemie-Thesaurus, der an der Herzog August Bibliothek Wolfenbüttel 
bereits erstellt wurde (Frietsch 2017a, 2020), soll in dieses weiterverwertbare Da- 
tenformat überführt und inhaltlich ergänzt werden.? Anhand der genannten Werke 
Michael Maiers soll dann einerseits automatisiertes Tagging mithilfe dieses The- 
saurus erprobt werden und andererseits der Thesaurus anhand der Vorkommnisse 
potentieller Decknamen in Maiers Werk vervollständigt werden. 

Unter dem Kampfbegriff der ,New Historiography of Alchemy‘ ist eine neue 
Herangehensweise an Alchemiegeschichte entstanden. Geleitet durch eine Zurück- 
weisung anachronistischer Begrifflichkeiten, die sich in der Alchemieforschung 
etabliert hatten, hat diese sich zum Ziel gesetzt, einerseits durch eine prazisere Be- 
griffsverwendung im Sinne der historischen Quellen und andererseits durch eine 
tiefergehende Erforschung alchemischer und chymischer Begrifflichkeiten und 
Kommunikationsweisen wie z. B. der sogenannten Decknamen Alchemiegeschich- 
te zu schreiben, ohne auf anachronistische Kategorien wie z. B. die Bezeichnung 
der Alchemie als Pseudowissenschaft zurückzugreifen und gleichzeitig die Al- 
chemie als historische Wissenschaftsform besser zu verstehen. Bei der Analyse 
solcher Decknamen im Sinne von L. Principe und W. Newman werden ,dunkle‘ 
Begriffe chemisch gelesen und im Zuge einer Nachstellung im Sinne der Experimen- 
talarcháologie einem Kohárenzbeweis unterzogen (vgl. Principe 1992; Newman 
1996). Ergibt der ‚dunkle‘ Begriff nach seiner Übersetzung in eine chemische Ver- 
suchsanordnung sowohl theoretisch auch praktisch Sinn, so wird der Deckname 
im Sinne eines ,best explanation'-Ansatzes nach dem Kohárenzbeweis als ent- 


5 Ein Thesaurus dient der Wissensorganisation und -reprásentation. Kodiert im Semantic Web 
wird er maschinenlesbar, die abgebildeten Konzepte durch URIs eindeutig referenzierbar; weiters 
erlaubt SKOS deren Dokumentation und Definition durch Zusatzinformationen sowie die Darstel- 
lung von Verbindungen, Hierarchien und Synonymien, die eindeutige Klassifikation erlaubt, aber 
dennoch nicht zu rigide ist. Vgl. Yu (2015, 156—263) . 

6 Zur (mitunter kontroversen) Diskussion um die „New Historiography of Alchemy“: Newman 
und Principe (1998); Principe und Newman (2001); Tilton (2003, 9-18) 
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schlüsselt angesehen. Dieser Zugang erlaubt der Forschung, sowohl ein vertieftes 
Verstándnis über alchemische Decknamen und Sprechweisen zu erlangen, als auch 
sich in naturwissenschaftlicher Art und Weise über den Wissensstand historischer 
AkteurInnen klar zu werden und schließlich experimentell nachzuvollziehen, wie 
ein Deckname und das realweltliche Ding, das er beschreibt, zueinander in Bezie- 
hung stehen. Ein solcher Beweis sollte jedoch auch über Logik móglich sein, da es 
sich dabei um einen Kohárenzbeweis handelt. Essentiell ist hierbei die Frage, wie 
Zeichen und Bezeichnetes in Relation zueinander gebracht werden kónnen. 

Zur alchemischer Sprache haben z. B. Hans-Werner Schütt und Umberto Eco 
schon einige Überlegungen beigetragen, doch sind diese meist theoretischer Natur 
und gehen über Forschungstopoi kaum hinaus, weswegen sie für konkrete Text- 
analysen nicht fruchtbar zu machen sind.’ Bereits bestehende Ressourcen zu al- 
chemischen Begrifflichkeiten waren zur Information über Alchemie, aber nicht zur 
Annotation konkreter alchemischer Texte gedacht, wie z. B. das Alchemie-Lexikon 
(Priesner und Figala 1998) oder der Alchemie-Thesaurus der HAB Wolfenbüttel, 
der der Verschlagwortung und Erschließung alchemischer Buchbestánde dien- 
te.? Die bisher vorhandenen Ressourcen erlauben zwar ein Einarbeiten in oder 
Vorinformieren über Alchemie und gewisse alchemische Konzepte durch Einle- 
sen, sind aber nicht für eine automatisierte Annotation konkreter alchemischer 
Texte geeignet. Die dort vorkommenden Einträge sind nämlich häufig allgemeine 
Überbegriffe, die so in den Texten gar nicht behandelt werden, doch finden sich 
unter den Lemmata keine Zeichenketten, die in den Texten selbst verwendet wer- 
den.? Es bedarf demnach sowohl einer neuen Art des Sprechens über alchemische 
Sprache als auch eines neuen Thesaurus, die beide mit dem Ziel der automatisier- 
ten Annotation im Hinterkopf konzipiert wurden. Der hier vorzustellende Ansatz 
einer automatisierten Annotation alchemischer Texte mithilfe eines Thesaurus 
verwendet aus pragmatischen Gründen einen sehr weiten Decknamenbegriff: Als 
Deckname wird in diesem Kontext jede Zeichenkette verstanden, die mit einiger 


7 Z.B. Schütt (1994); Eco (2016), zu chemischer Sprache im 18. Jahrhundert dann auch Duncan 
(1981). 

8 Ein wenig problematisch an der Benennung dieses Thesaurus ist der Umstand, dass es sich 
hier um eine nicht dem allgemeinen Verständnis von „Thesaurus“ folgende Bezeichnung handelt. 
Frietsch (20173); Frietsch (2017b); Frietsch (2020). 

9 So ergab beispielsweise eine automatisierte Annotation der Symbola Maiers, dass von den 99 
Eintrágen des HAB-Thesaurus gerade einmal 19 überhaupt in Maiers Werk angefunden wurden, da 
die meisten Begriffe nur zum Sprechen über Texte geeignet sind und abstrakte Forschungsthemen 
bezeichnen, die natürlich im Klartext der Quellen nicht so bezeichnet stehen. Es werden daher 
einerseits viele Begriffe des HAB-Thesaurus in der Quelle nicht angefunden, andererseits bleiben 
viele erklärungsbedürftige Konzepte des Maier-Textes unerklärt, da sie wohl zu speziell gewesen 
wáren, um sie im besagten Thesaurus abzubilden. 
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Wahrscheinlichkeit ein Deckname sein kónnte.!9 Ob diese Zeichenkette vom Autor 
zur tatsáchlichen Kodierung alchemischen Wissens gedacht war, kann die auto- 
matisierte digitale Methode nicht beurteilen. Die Entscheidung und Interpretation 
obliegt weiterhin den FachwissenschaftlerInnen. Doch die vorgestellte Methode 
erlaubt, die Wörter, die Kandidaten für Decknamen sind, zu kontextualisieren und 
Wahrscheinlichkeiten zur Disambiguierung ambivalenter Begriffe anzubieten. Die 
Zeichenketten der ,Decknamen-Worter‘ werden hier nicht als Wórter verstanden, 
die mithilfe eines Wórterbuchs einfach ‚aufgelöst‘ werden können, sondern als 
bloße Wortoberflächen (Zeichen), die auf Begriffe (Bezeichnetes) verweisen, auf 
die aus dem Text heraus referiert wird. Diese Auffassung erlaubt das Verstánd- 
nis alchemischer Sprache als Fachsprache, da die Decknamen nicht als Terme, 
sondern lediglich als Hinweiswórter verstanden werden. Wenn der Term in der mo- 
dernen Terminologie eindeutig auf einen durch ihn bezeichneten Begriff verweist, 
so erlaubt ein Deckname Verweise in analogischen Assoziationsketten, über die 
Verbindungen zwischen Zeichen und Bezeichnetem hergestellt und beschrieben 
werden kónnen. 

Thesaurus-Begriffe werden aus den Indices der Werke Maiers ausgewählt und 
durch solche ergánzt, die zur Schaffung von Assoziationsketten benótigt werden. 
So führt Maier z. B. keine Farben an, die jedoch als Qualifier in dem Modell unerláss- 
lich sind, weil sie häufig die Eigenschaften bezeichnen, über die die Assoziation 
zwischen Zeichen und Bezeichnetem hergestellt wird. Daraufhin werden die fragli- 
chen Zeichenketten im Korpus automatisiert annotiert. Daraus wiederum wird eine 
Konkordanz der Wortverwendung erstellt. Diese Konkordanz wird abermals mit 
denselben Zeichenketten annotiert, wodurch sich ein Beziehungsnetzwerk ergibt, 
das Aussagen darüber zulásst, in welchen inhaltlichen Kontexten ein Begriff auf- 
tritt. Diese ergeben sich selbst aus sprachlichen Kontexten der konkreten Textstelle. 
Begriffe im Thesaurus kónnen somit mit Kontexten getaggt werden. Diese Kontex- 
te allerdings sind quantifizierbar, d. h. durch einen Vergleich der Mittelwerte für 
die Kontexte in der Konkordanz mit den Prozentsátzen an einer konkreten Text- 
stelle kann eine Wahrscheinlichkeit zur Disambiguierung der Wortverwendung 


10 Principe definiert Decknamen wie folgt: „To promote [...] secrecy, Zosimos employs a technique 
that would become typical for alchemical authors: the use of Decknamen, a German term meaning 
‚cover names‘. These Decknamen function as a kind of code. Instead of using the common name 
for the substance, the alchemical writer substitutes another word — usually one that has some 
link, literal or metaphorical, with the substance intended. [...] Decknamen serve a dual purpose: 
they maintain secrecy, but they also allow for discreet communication among those having 
the knowledge or intelligence to decipher the system. They simultaneously conceal and reveal. 
Consequently, Decknamen have to be logical, not arbitrary, so that they can be deciphered.* 
Principe (2013, 18). 
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angeboten werden. Weiterhin hat diese Methode den Vorteil, dass sie ein relativ 
großes Maß an Objektivität mit sich bringt. Einen subjektiven Eingriff stellt dabei 
lediglich die Entscheidung dar, welche Begriffe in den Thesaurus aufgenommen 
werden. Die Definition der Begriffe selbst wird größtenteils durch die Konkordanz 
geliefert, wodurch quasi ein Buch das andere erklärt, beziehungsweise die Gesamt- 
menge der Schriften des Autors selbst eine konkrete Textstelle kontextualisiert. 
Diese Methode könnte auch Hinweise darüber liefern, ob ein Autor die Technik der 
Wissensdispersion verwendet, da Vorkommen gewisser Signalwörter sehr schnell 
überblickbar werden." Thesaurus, Konkordanz, Korpus und konkrete Textstelle 
werden miteinander in Verbindung gebracht. Der Thesaurus bringt somit als eine 
Art Gesamtregister Wissen, das im Zuge von Wissensdispersion absichtlich über 
mehrere Texte verteilt wurde, wieder zusammen. Die Verbindungen beschreiben 
ein Wissensnetzwerk, das somit digital modelliert wird. 

Ein solches Modell ist weder in Stein gemeißelt noch will es ‚Wahrheiten‘ ver- 
mitteln. Digitale Modelle definiert McCarty als „temporary states in a process of 
coming to know“, in dem Computer nicht „knowledge jukeboxes“, sondern „re- 
presentation machines“ sind (McCarty 2004, 255). Aus einem Modell lernen wir 
genau an den Stellen, wo das Modell nicht auf die Realität passt. Dabei wird ein 
zirkulärer Prozess der Modellierung angestoßen, im Zuge dessen mit jedem Zyklus 
das Verständnis über die zu modellierenden Aspekte, und damit auch das Modell 
selbst, verfeinert wird. Das Modell hilft also nicht nur dabei, konkrete Stellen 
im Text Michael Maiers besser verständlich zu machen, sondern vermittelt auch 
Einsichten in das Funktionieren alchemischer Sprache. Der Thesaurus ist erweiter- 
bar und kann somit durch die Ergebnisse zukünftiger digitaler Projekte ergänzt 
werden. Wenn diese allerdings auch funktionieren wie z. B. die zuvor angespro- 
chenen, so kónnten wieder keine direkten Verbindungen zwischen den digitalen 
Lexikon-Ressourcen und den transkribierten Texten gezogen werden. Doch neben 
diesen Projekten gibt es zudem eine Vielzahl historischer Alchemie-Wórterbücher, 
besonders aus dem 17. und frühen 20. Jahrhundert, sowie einige im Zuge des ‚new 
historiographical turns' in der Alchemiegeschichte seit den 1990ern entstandene. 
Auf Dauer wird es ohnehin unerlässlich werden, diese als digitale Ressourcen ver- 


11 Dabei handelt es sich um die Technik, essentielle Informationen an einer Stelle zur Wahrung der 
Geheimhaltung auszusparen. Von alchemisch vorgebildeten Lesern wird allerdings erwartet, dass 
diese einerseits das Fehlen einer essentiellen Information aufgrund ihrer chemischen Erfahrung 
bemerken und andererseits, dass sie die sonstigen Schriften des Autors auf der Suche nach dieser 
Information zu durchforsten wissen. Diese findet sich zumeist in einem ganz anderen Kontext 
‚versteckt‘ und kann häufig daran erkannt werden, dass gewisse beiden Stellen gemeinsame 
Signalwörter fallen. So scheint es wahrscheinlich, dass die Werke Maiers, die unterschiedlichste 
Themen behandeln, solche Wissensdispersion enthalten kónnten. 
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fügbar zu machen und als Linked Open Data zu synthetisieren. Die hier vorgestellte 
Methode liefert dabei das Bindeglied, mit dem eher abstrakte Begriffsdefinitionen 
mit tatsáchlich in Texten vorkommenden Strings verbunden werden kónnen. Auch 
historische Alchemie-Lexika, wie z. B. das Lexicon Alchemiae Rulandi kónnten in 
das digitale Abbild des Wissensnetzwerks integriert werden (vgl. Ruland 1612). 
Der Zirkularitát und Erweiterbarkeit der Modellierung wird dadurch Rechnung 
getragen, dass der mit der vorgestellten Methode zu verarbeitende Text nicht mit 
‚vergänglichen‘ Annotationen angereichert wird. Er enthält lediglich Bindeglieder 
zu einem Standoff-Thesaurus, 7 über den Assoziationsketten und Bindeglieder je 
nach Status der Modellierung dynamisch ausgelesen werden kónnen. 


3 Zum automatisierten Annotationsvorgang 


Die Datenakquisition erfolgt über die Software Transkribus. Mit einem im Zuge des 
NOSCEMUS-Projektes trainierten Modell liefert diese OCR-Transkriptionen sehr 
guter Qualität mit einer Fehlerquote von circa 1-3 Fehlern pro Seite. ? Dabei wird 
ein Korpus der gesamten Druckwerke Michael Maiers erstellt, das in der Folge zur 
Kontextualisierung von Textstellen herangezogen werden kann. Die Auswahl der 
zu annotierenden Inhalte orientiert sich an den Indices, die einigen Maier-Werken 
beigegeben sind: Aus den Index-Eintrágen wird eine Liste kompiliert.'^ Duplikate 
werden entfernt. Eine Sortierung in Named Entities und Konzepte wird händisch 


12 MitStandoff-Annotation verbinden Gius und Jacke die Vorstellung, dass die Annotation weniger 
normative und zeitlose Gültigkeit beansprucht als dies beispielsweise in einer Inline-Annotation 
der Fall wáre. Vgl. Gius and Jacke (2015). Im Text werden nur gewisse Strings annotiert. Erst über die 
Verbindung mit dem Thesaurus wird Zusatzinformation hinzugefügt. Welche Zusatzinformation 
hinzugefügt wird ist damit im eigentlichen Text nicht enthalten, wodurch diese laufend aktualisiert 
und verbessert werden kann, ohne dass am eigentlichen annotierten Text etwas verándert werden 
müsste. Der Begriff Standoff wird hier nicht im Gegensatz zu „embedded“ verstanden, sondern 
verweist nachdrücklich auf den Umstand, dass der Thesaurus als nicht direkt Teil als Annotation 
an den Text gedacht wird: Die eigentliche Annotation besteht in der Markierung der verweisenden 
Zeichenketten im Text, die in der Folge genausogut durch einen anderen Thesaurus erklárt werden 
kónnten. Der Begriff Standoff dient dazu, die den nicht zwingenden Charakter der Verbindung 
zwischen annotiertem Text und Thesaurus herauszustellen. 

13 Zum NOSCEMUS-Modell der News-Eintrag ,15/12/2019: Noscemus Transkribus Model released‘: 
https://www.uibk.ac.at/projects/noscemus/ (06.01.2020). 

14 Zum Beispiel enthalten Maiers Symbola bereits über 3000 Index-Eintráge, von denen allerdings 
einige Mehrfachnennungen aussortiert werden müssen. Die Streuung der relativen Häufigkeiten 
dieser Begriffe ist natürlich relativ groß. Vel. Maier (1617, PDF-Seiten 661-702, 40 unnummerierte 
Seiten). 
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vorgenommen. Von diesen werden auch einige wie Konzepte in den Thesaurus 
aufgenommen, andere wiederum dienen hauptsáchlich bibliographischen Nach- 
weisen. Sie kónnen zum Nachvollziehen der Quellen Maiers herangezogen werden, 
doch hat der Umstand, welche antiken Historiographen Maier zitiert, vergleichs- 
weise wenig Bewandtnis für die Interpretation seiner chymischen Theorien. 

Zitate im Text werden händisch als solche ausgezeichnet, um die Wortverwen- 
dung in Zitaten von der im Haupttext unterscheiden zu kónnen. So kann festgestellt 
werden, ob dies unterschiedliche Bewertungen der Decknamen ergibt. Im Thesau- 
rus wird aus den Indices zunáchst eine Liste an zu annotierenden labels erstellt. 
Schritt für Schritt werden zu diesen Konzepte hinzugefügt, wobei allerdings selek- 
tiv vorgegangen wird. Eine Zeichenkette kann als label verzeichnet mit Kontexten 
getaggt werden, muss aber nicht zwangsläufig durch die Hinzufügung eines ver- 
bundenen Konzepts noch tiefer erschlossen werden. Diese Erschließung findet nur 
in Bezug auf besonders relevante Konzepte statt, bei denen auch genug Aussagen 
Maiers vorhanden sind, um überhaupt eine solche Erschließung vorzunehmen. 
Ein besonderer Fokus liegt dabei auf den sieben Metallen, die Maier im Viatori- 
um sehr ausführlich beschreibt (Maier 1618). Da die Indices sich besonders auf 
Personennamen konzentrieren, werden chemische Fachbegriffe und andere zur 
Kontextualisierung notwendige Elemente wie etwa Farben hinzugenommen. Die 
labels des Thesaurus werden im Text lemmatisiert gesucht”? und alle gefundenen 
Vorkommen automatisch im Stil von «fund label="normalisierter_Labelname”> 
annotiert. Aus dem annotierten Korpus wird nun für alle labels eine Konkordanz 
aus den Annotationen erstellt. Der Text der Konkordanz wird wiederum mit den 
Begriffen des Thesaurus annotiert, wodurch ein Begriffsnetzwerk entsteht. Im 
Thesaurus werden Begriffen Kontexte zugewiesen. 


4 Warum Annotation und nicht quantitative 
Textanalyse? 


Es stellt sich eine weitere Frage: Wenn ohnehin automatisiert vorgegangen werden 
soll, warum dann nicht gleich auf bereits existente Methoden der quantitativen 
Textanalyse zurückgreifen? Hier soll argumentiert werden, dass Methoden der 
quantitativen Textanalyse, die nicht spezifisch auf die Analyse alchemischer Texte 
hin optimiert sind, nur relativ schwache Ergebnisse erzielen und damit nur sehr 


15 Natural Language Processing Arbeitsschritte wie die Lemmatisierung werden mithilfe des 
Python Classical Language Toolkit (CLTK) umgesetzt. Cf. Johnson et al. (2014-2019). 
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spezielle Forschungsfragen beantwortbar werden, die wissenschaftshistorisch 
nicht unbedingt besonders relevant oder interessant sind. Wenn automatisierte 
Annotation auf ein ausreichend großes Korpus angewendet wird, können die Re- 
sultate dann noch immer quantitativ ausgewertet und beispielsweise abschließend 
zu einer zusätzlichen Visualisierung verarbeitet werden.!6 
Standardanwendungen der quantitativen Textanalyse lassen keine gezielte 
Analyse wissenschaftlich relevanter Termini in ihren Relationen zueinander zu.'7 
So vermittelt linguistisches Keyword in Context!? keinen Zugang zum wissenschaft- 
lichen Begriff im Kontext anderer wissenschaftlicher Konzepte. Topic Modelling’? 
scheint auf den ersten Blick eine inhaltliche Kontextualisierung zu erlauben, doch 
stellt sich hier das Problem, dass zur Erstellung eines ‚allgemeingültigen‘ Kontexts 
für ein Wort oder Topic zunáchst im Bag of words die tatsáchlichen textuellen 
Kontexte verworfen werden. Zur Analyse eines extrem ambivalenten alchemischen 
Begriffs wie beispielsweise im Fall des bedeutungsreichen ,Mercurius‘ wird der 
String bei jedem Vorkommen als derselbe behandelt, obwohl in den konkreten 
Situationen gar nicht vom selben Konzept die Rede sein mag. Diese , proximity to 
the source text* ist es auch, die McCarty als einen ganz entscheidenden Vorteil 
der Annotation ansieht (vgl. McCarty 2003, 3). Die Disambiguierung, wie sie ja 
auch in modernen Sprachen und alltáglichen Kontexten, so beispielsweise im 
Fall des String ,Bank' notwendig ist, stellt sich hier komplexer heraus, da wir bis- 
her keine statistischen Daten darüber haben, die relativ sicher Auskunft darüber 
vermitteln kónnen, in welchem Kontext welche Bedeutung auftritt. Im Fall der 
alchemischen Termini kennen wir zum Teil nicht einmal das komplette Spektrum 
möglicher Bedeutungen und werden womöglich dazu auch gar nie in der Lage 
sein, da das Schaffen von Neologismen oder bewusst kreative und übertragene 
Wortverwendungen ein Spezifikum alchemischer Redeweise ausmachen. Ein regel- 
basierter Ansatz sollte daher hier einem statistikbasierten überlegen sein, zumal 
uns zumindest die Logik der alchemischen Sprechweise bekannt ist, wir aber zur 
massenhaften Analyse wohl ein sparse data-Problem zu erwarten haben. Auch für 


16 So wurde im To See Or Not To See-Webtool ebenfalls ein quantitatives Visualisierungstool für 
Charakteristika von Shakespeare-Stücken entwickelt, dessen Netzwerkanalysen auf Annotationen 
beruhen. Vgl. Wilhelm, Burghardt und Wolff (2013). Ahnliche Visualisierungen kónnten auch zur 
interaktiven Explorierung alchemische Begriffe nützlich sein. 

17 Die Notwendigkeit, spezifisch für konkrete historische Fragestellungen nützliche Tools zu 
entwickeln, statt Out-of-the-box-Methoden zu nutzen betonen auch Gibson et al. (2019, 500—501). 
18 Zur Keyword in Context (KWIC) Methode: https://fortext.net/ressourcen/glossar (06.01.2020). 
19 Einführend zum Topic Modelling: Jan Horstmann (2018, 8 2): ,,Topic Modeling“. In: for- 
TEXT. Literatur digital erforschen. URL: https://fortext.net/routinen/methoden/topic-modeling 
(06.01.2020). 
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andere Problematiken, die sich bei einer solchen Analyse ergeben kónnen, wie z. B. 
den Umgang mit Kapitelgrenzen oder Vorkommnisse von Begriffen innerhalb von 
Zitaten anderer Autoren, ist Annotation deutlich besser geeignet als quantitative 
Textanalyse. Außerdem bleibt durch die Annotation besser nachvollziehbar, wie 
der Computer zu einer Interpretation gekommen ist, als bei einer statistischen 
Datentransformation aus einem Bag-of-words-Modell. 


5 Noscitur e sociis: Kónnen literarische Kontexte 
automatisiert erkannt werden? 


Wenn wir die Frage stellen, ob literarische Kontexte automatisiert erkannt werden 
können, so kann dies beispielsweise leicht mit ‚ja‘ beantwortet werden, wenn 
wir nur unsere Zieldefinition entsprechend anpassen. Linguistisch gesehen bietet 
Keyword-In-Context (KWIC) genau dies.?° Doch kann diese Definition auch auf 
literaturwissenschaftliche oder historische Fragestellungen übertragen werden? 
Die Antwort hängt davon ab, was wir als relevanten Kontext definieren. 

Im Gegensatz zum ,Bank‘-Disambiguierungsproblem, wobei die unterschiedli- 
chen Bedeutungen doch in den meisten Fallen deutliche Anderungen im direkten 
Umfeld des linguistischen KWIC nach sich ziehen, so ist dies im Fall des alchemi- 
schen ,Mercurius‘ nicht unbedingt der Fall: Es kann passieren, dass die konkrete 
Chemikalie Quecksilber oder aber das philosophische Konzept Mercurius diesel- 
ben Eigenschaften besitzen und mit dem selben Kontext-Vokabular angesprochen 
sind und umgeben werden. In diesem Fall bildet sich der Bedeutungsunterschied 
maximal in einem sehr weiten KWIC ab, das dann allerdings eine automatisierte 


20 McCarty äußert sich zurückhaltend zum Nutzen des KWIC-Prinzip des noscitur e sociis für 
die Literaturwissenschaft: ,, In J. R. Firth's happy formulation, the underlying principle is that 
‚You shall know a word by the company it keeps!‘ (1957, 11). Marshalling and enumerating this 
company, concordance software has already helped us to inch forward by resolving context 
partially into particular words, their patterns of collation and a theoretical entity called ‚span‘, 
within which collocation is probable. [...] Literary scholars are less well served by concordance 
software than linguists because literature adds to the linguists' rather amorphous idea of ,running 
text‘ a complex host of structural relations within and among individual texts. The analytic 
purposes of the literary scholar go beyond the ancient legal principle of noscitur e sociis which 
Firth is invoking, and so well beyond the capabilities of concordance software as we now know it.“ 
McCarty (2007). Die vorgestellte Methode versucht, eben dieser Sorge McCartys vorzubeugen, dass 
ein rein linguistisches KWIC nicht den Ansprüchen der Literaturwissenschaft genügt. Durch das 
Etablieren eines „Decknamen“-Kontexts werden relevante Elemente aus einem weiteren Kontext 
mit herangezogen. 
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Klassifizierung erschwert, da die BearbeiterInnen womöglich die Textstellen ei- 
gens durchlesen müssten, um zu einem Urteil zu kommen. Ich schlage vor, einen 
‚Decknamen-Kontext‘ zu bilden. Darin dienen beieinanderliegende Annotationen 
als Kontext-Wörter, nicht einfach nur irgendwelche direkt umliegenden Wörter. 
Zum Beispiel kónnten die fünf vorhergehenden und die fünf direkt nachfolgenden 
Annotationen als solche Kontexte angesehen werden. Der ,Decknamen-Kontext* 
kann in deutlich mehr Fállen Aufschluss über die Bedeutungsfárbung alchemi- 
scher Texte vermitteln. Eine Konkordanzansicht kann wie in Listing 1 aussehen. 


Listing 1: Textbeispiel von S. 217 der Arcana Arcanissima Maiers zu Odysseus 


1 «example ref-"Maier.Arcana.217"» 

2 errores <label>artificis</label> varij tanquam eius «label» 
magistri«/label» describuntur, de quibus circa finem sexti 
libri agetur: Si quis autem existimet, <label>Herculem</label> 
ac <label>Iasonem</label>, vt &amp; <occurrence>Vlyssem 
</occurrence>, ad <label>Chymicos artifices</label> referri non 

posse, propterea, quod hi sint <label>heroés</label> armis 
clari, rebus ge 

3  «/example» 


In Beispiel ,Maier.Arcana.217' wird der Begriff ,Ulysses' kontextualisiert 
(«occurrence»). Als label sind alle im Kontext vorkommenden anderen Thesaurus- 
Begriffe annotiert. Diese beinhalten z.B. jartificiis', magistri: oder ‚Chymicos 
artifices', Bezeichnungen, die stark darauf hinweisen, dass hier aus einer 
Meta-Perspektive über das alchemische Werk diskutiert wird. Zusätzlich ist hier 
ein mythologischer Kontext vertreten: Mit ,Herculem', ‚Iasonem‘ und ‚heroes‘ 
wird ein Kontext mythologischer Helden etabliert. Die Kombination der beiden 
vorhandenen Kontexte kann dahingehend interpretiert werden, dass Maier hier 
mythologische Helden als Allegorien für alchemische Adepten heranzieht. Tatsách- 
lich ergibt ein close reading, dass dem so ist (Forshaw 2019; Lang 2018, 95-105). 
Auch andere Textstellen zu Odysseus ergeben ähnliche Kontexte. Die Zeichenkette 
‚Odysseus‘ kann demnach wie in Listing 2 im Thesaurus vermerkt werden. 


Listing 2: Pseudo-Code, der die gefundenen Eigenschaften aus Listing 2 in RDF-Tripeln ausdrückt 


:Odysseus :hasContext :mythological , :alchemicalOpusMeta . 


Im vorliegenden Beispiel ist das konkrete Vorkommen ,Ulyssem' zu 50% mit Kon- 
text ‚alchemicalOpusMeta‘ und zu 50% mit mythological‘ getaggt. Daraus könnte 
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auch ohne close reading mit relativer Sicherheit gefolgert werden, dass es sich bei 
diesem Decknamen nicht um eine konkrete chemische Substanz handelt. Welche 
Bedeutung hier genau intendiert wird, bleibt den interpretierenden HistorikerIn- 
nen zu entscheiden tiberlassen. Eine Disambiguierung beziiglich fiir die Analyse 
alchemischer Texte relevanter Aspekte konnte dennoch bereits erzielt werden. 

In einem anderen Beispiel soll ein kurzer Blick auf ‚Mercurius‘ geworfen wer- 
den, der wohl den schwierigsten und vieldeutigsten Begriff der Alchemie darstellt: 


Listing 3: Textbeispiel von S. 60 der Arcana Arcanissima Maiers zu Mercurius 


1 «example ref-"Maier.Arcana.60"» 

2 <label>Osiris</label>, <label>Isis</label>, <label>Typhon 
</label>,<occurrence> Mercurius, </occurrence> 

3 </example> 


Aus ,Maier.Arcana.60' werden ‚Osiris‘, ‚Isis‘ und ‚Typhon‘ jeweils sowohl mit 
‚mythological‘ als auch mit dem Kontext ,alchemical innovators‘ getaggt, da diese 
in der Alchemiegeschichte mitunter als wichtige Akteure der eigenen Tradition 
verstanden wurden. Als solche werden sie eher als historische Personen denn als 
Angehörige dessen verstanden, was für uns heutzutage Mythologie bedeutet. In 
diesem Fall kann also geschlossen werden, dass die Klassifizierung des Kontexts 
‚mythological‘ überwiegt, da alle vorkommenden Begriffe auch als ‚alchemical 
innovators‘ getaggt sind. Es geht also an dieser Stelle mit größerer Wahrschein- 
lichkeit um ‚Mercurius‘ in seiner Rolle als ‚Hermes Trismegistos‘, einen oder sogar 
den ‚Urvater‘ der Alchemie. 


Listing 4: Textbeispiele von S. 191 und S. 192 der Arcana Arcanissima Maiers zu Mercurius 


1 «example ref-"Maier.Arcana.191"» 
2 tum, aut per <label>Lunam</label>, <label>argentum</label>, per 
«occurrence» Mercurium</occurrence> <label>hydrargyrum</label>, 
per <label>Saturnum</label> <label>plumbum</label>, per 
<label>Iovem</label>, <label>stannum</label>, per <label>Martem 
</label> <label>ferrum</label>, communia intellexis 
3 </example> 
«example ref="Maier. Arcana. 192”> 
5 albant &amp; rubificant intrinsecus &amp; extrinsecus, scilicet 
<label>Sol</label>, <label>Luna</label>, <occurrence> 
Mercurius: </occurrence> quae tria dissoluta &amp; fermentata 
appellat <label>argentum vivum</label> dicens, argentum vivum 
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habet in se <label>corpus</label>, <label>spiritum</label> 
&amp; <label>animam</label>. 
6  «/example» 


In ,Maier.Arcana.191' und ,Maier.Arcana.192' handelt es sich um einen ,metalli- 
schen' Kontext:?! Nachdem die Textstellen nahe beieinander liegen, kónnen wir 
davon ausgehen, dass wir uns an dieser Stelle in einem ‚gemeinsamen‘ Kontext 
bewegen. Das Beispiel von Seite 191 enthált mythologische Namen, die auch als 
Planetenbezeichnungen verwendet werden (z.B. ,Saturnum sowie Metallbezeich- 
nungen in unverhüllter Rede wie ‚argentum‘, ,hydrargyrum', etc.): 


Listing 5: Pseudo-Code, der die gefundenen Eigenschaften aus Listing 4 auf der vorherigen Seite 
in RDF-Tripeln ausdrückt 

:Luna :hasContext :planets . 

:Mercurius :hasContext :mythological, :planets, :metals . 


1 
2 
3 
4 :argentum :hasContext :metals . 

5 :hydrargyrum :hasContext :metals . [etc.] 

Eine Auszáhlung ergibt somit 5x :planets, 9x :metals und 4x :mythological. 
Es kann also eindeutig festgestellt werden, dass es hier um Metalle geht, die im 
Kontext von Planetennamen diskutiert werden. Das Lesen der Textstelle bestá- 
tigt eben diese Feststellung. Wie an diesem Beispiel ersichtlich wird, ergibt die 
Auswertung in vielen Fállen noch keine neuen Erkenntnisse. Die Máchtigkeit der 
Methode kommt erst zum Tragen, wenn es darum geht, einen Begriff über ein sehr 
großes Korpus zu verfolgen und beispielsweise festzustellen, ob er vorwiegend 
für konkrete Chemie oder eher philosophische Konzepte verwendet wird. Das Bei- 
spiel ‚Odysseus‘ ergibt hier sehr eindeutige Ergebnisse, da er im Grunde nie in 
wirklich chemischen Kontexten auftritt.?? Dies kónnte die vorgestellte Methode in 
kürzester Zeit feststellen. Durch die Nahe von Annotationen und Konkordanz zum 
Originaltext wird auch die hándische Nachkontrolle durch fachkompetente For- 
scherInnen im Sinne eines close reading betráchtlich erleichtert, da alle potentiell 


21 Die Zahl am Ende der Referenznachweise bezeichnet die Seitenzahl im Text, d. h. das Zitat 
bezieht sich auf: Maier (1614, 191-192). 

22 Mit wenig über 30 Vorkommen im gesamten Korpus wáre ,Ulysses' auch im Close Reading 
leicht überschaubar. Doch ergibt die automatisierte Analyse lediglich die Kontexte ‚nythological‘ 
und ,alchemicalOpusMeta' und ist damit recht eindeutig. 
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relevanten Stellen in der Konkordanz bereits herausgesucht sind. Hinzu kommt 
der Umstand, dass bei dieser Methode nicht nur der Begriff selbst in Konkordanz- 
ansicht vorliegt, sondern auch für alle kontextualisierenden Begriffe automatisch 
eine solche vorhanden ist. Wáhrend dies mithilfe von out-of-the-box-Methoden 
der quantitativen Textanalyse alles Begriff für Begriff analysiert werden müsste, so 
kann hier eine ‚rekursive‘ Analyse durchgeführt werden, deren Ergebnisse durch 
die Wissensressource als Ganze direkt kontextualisiert sind. Für Begriffe kónnen 
Statistiken erhoben werden, wie haufig sie in welchen Kontexten vorkommen und 
diese Ergebnisse wiederum in zukünftige Analysen einfließen. 

Subjektivitát besteht bei dem vorgestellten Vorgehen vor allem in der Auswahl 
der zu annotierenden Wórter.?? Die Kontexte werden zwar durch die Bearbeitenden 
verschlagwortet und beinhalten damit abermals eine Instanz von Subjektivitat, 
doch erfolgt die Zuteilung der Kontexte daraufhin durch quantitative Auszáh- 
lung. Damit kann statistisch eruiert werden, welche Begriffe geháuft mit welchen 
anderen auftreten. Es entsteht ein Ansatz, der die Methode der Annotation mit 
quantitativer Textanalyse verbindet. Auch kann über die Konkordanz die Übertrag- 
barkeit des Thesaurus auf andere Texte validiert werden. So kann die Statistik, in 
welchen Kontexten ein Begriff in Text A vorkommt, mit den Analysewerten aus 
Text B verglichen werden. Stimmen sie nicht überein, so muss eruiert werden, 
ob die Begriffsverwendung hier so unterschiedlich ist, dass eine Übertragbarkeit 
nicht als gegeben angesehen werden kann. Der Thesaurus ist erweiterbar, d. h. er 
bietet die Móglichkeit, sich zu einem Zeitpunkt in der Zukunft der Abbildung aller 
möglichen Elemente zumindest anzunähern. Zum aktuellen Zeitpunkt passiert die 
Auswahl genauer auszuarbeitender Elemente anhand von Häufigkeit: Die häufigs- 
ten 50 Konzepte sollen genauer ausgearbeitet werden. Zusätzlich sollen einige für 
die Forschungsgeschichte besonders relevante Begriffe, wie sie sich in ihrer Wich- 
tigkeit in zeitgenössischen und historischen Alchemie-Lexika und -wörterbüchern 
niederschlagen, modelliert werden, auch wenn sie weniger häufig sind. Ande- 
re in Maiers Indices vorkommende Begriffe werden dennoch annotiert, aber es 
wird aus pragmatischen Gründen weniger Zeit aufgewendet, sie im Thesaurus 
tiefenzuerschließen. 

Das analytische Auslesen von Kontexten zu Begriffen, die sich aus dem Text 
selbst ergeben, kann zur Reduktion von Unsicherheit und Ambiguität genutzt 
werden, womit es zur Disambiguierung beiträgt (Zur Definition von Unsicherheit: 
Piotrowski 2019). Dies entspricht dem alchemischen Konzept der Wissensdispersi- 


23 Vorsicht geboten ist bei der unhinterfragten Verwendung des Subjektivitätsbegriffs. In diesem 
Fall ist damit durch ForscherInnen getroffene Auswahl und menschliche, methodisch geleitete 
Intervention gemeint, die von nicht notwendigerweise begründeten Entscheidungen einzelner 
Akteure zu differenzieren ist. 
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on, in dem ein Buch das andere erkláren soll. Der vorgestellte Ansatz soll Geistes- 
wissenschaftlerInnen nicht nur erlauben ,digitally enhanced' zu arbeiten, sondern 
soll ganz im Sinne der Digital Humanities eine ,digitally inspired‘ Methode zur 
Analyse alchemischer Sprache bieten (vgl. Wettlaufer 2016). 
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Felix Lange 
An Online Field Study on Scholarly Journal 
Annotations 


Empirical Evidence and Implications for Software Design in the 
Digital Humanities 


Abstract: Even though there is an abundance of web-based annotation tools that 
allow users to share their data across the internet, little is known about how these 
tools are actually used in the daily work routines of scholars in the Humanities. This 
chapter presents an empirical study on public inline annotations by publishers, 
article authors and readers in a scholarly open-access journal. The findings of this 
study are combined with a meta-analysis of the existing empirical literature on 
marginal annotations in the Humanities and scholars' willingness to share them. 
The most important conclusion that can be drawn from the empirical data is that 
the publication of annotations is not a feature that needs to be offered by all types 
of scholarly annotation software packages. 


Keywords: Collaboration, Evaluation, Classifying, Commenting, Form, Tool, Digital 
Humanities 


1 Introduction 


In his contribution to this volume, Willard McCarty describes his personal way 
of writing, storing and processing notes on scholarly texts. An early step in this 
workflow is to „record ideas, keywords and references to other sources I want to 
come back to later for more detailed note-making" on separate paper slips (McCarty 
2020, 276 ff.). Two aspects of this description, the temporary, transient nature of 
preliminary comments and the working context in which they are made, can also 
be taken as distinctive features of individual scholarly annotations written in the 
margins of texts, henceforth marginalia (cf. Bold and Wagstaff 2017). It has been 
shown that these textual notes, consisting of a couple of sentences or even only 
some symbols, have been an important element of academic reading throughout 
the ages (Agosti et al. 2007; Blair 2004). Less clear is the relationship between this 
text genre and the scholarly practices of communication and data sharing. In the 
Digital Humanities (DH), which set out to foster collaboration and information 
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sharing, there have been numerous initiatives to provide the means to share or 
publish this type of data. Connecting primary sources, scholarly literature and 
annotations on these texts could result in a “Scholarly Web” (Perkel 2015) that 
crosses the boundaries of disciplines and links once isolated digital collections 
(Lordick 2015, 2). The individual work of text analysis might be opened up to larger 
audiences even in the early stages of research (Becker et al. 2016, 10). These ideas 
are taken to the extreme by Hemminger and TerMaat (2014, 2278): “One can now 
foresee a time when every scholar’s thoughts about a particular article are electron- 
ically captured and displayed to other scholars.” This vision has already received 
considerable technological support: The “Web Annotation Data Model” (hence- 
forth WADM) issued by the W3C! provides interoperability across software and 
collections (Hunter et al. 2010), and anumber of DH tools offer annotation-sharing 
capabilities (Müller-Birn et al. 2015, Grassi et al. 2013). At present, though, it is un- 
clear ifa Scholarly Web of annotations will come into existence. For other types of 
annotations such as linguistic tags, established infrastructures for the publication 
of annotated data exist and are in constant use,? but so far no comparable platform 
has attracted a large number of textual free-form annotations. It seems safe to say 
that the web-scale publication^ of marginalia has not become a regular feature of 
scholarly work in the Humanities so far. The question arises as to whether it should 
be a feature of annotation environments at all. After all, there have been a number 
of reports of a general mismatch between user needs and software designs in the 
Digital Humanities (Juola 2008, 75; Pape et al. 2012, 3 f.). This potential mismatch 
could reflect a general problem with annotation tools. An annotation feature was 
devised for one of the first graphical web browsers in the early 1990s (Carpenter 
2013), and later Adriano and Ricarte (2012) were able to list eighty different systems 
in a comparative study of general-purpose annotation software tools. In the (now 
defunct) DH tool directory DiRT, "Annotation" was among the three functions that 
were referred to most often (Borek et al. 2016, Par. 9). But web annotation was not 
included as a feature of later browser generations, whose present-day descendants 
still do not conform to the WADM (Shaikh-Lesko 2019), and so far no killer applica- 
tion (cf. Juola 2008) has been presented for web-based digital annotations. It seems 
clear that more research is needed on the real potential for annotation-sharing 
within and outside academia. In light of these problems, this chapter follows 
Antonijević Ubois' (2016) maxim of “Developing Research Tools via Voices from the 


1 https://www.w3.org/TR/annotation-model/ (20.01.2020) 

2 See also Hemminger's (2009) conceptual study. 

3 See e.g. CLARIN: https://www.clarin.eu/resource-families (20.01.2020) 

4 Public annotations as understood here include annotations on targets with copyright restric- 
tions. 
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Field”, gathering empirical evidence on scholarly annotation practices in order to 
derive ideas for software design. It presents the findings of a study on public inline 
annotations authored by publishers, article authors and readers in the open-access 
journal eLife The findings of this study are combined with a meta-analysis of 
the existing empirical literature on marginalia in the Humanities and scholars’ 
willingness to share them. 

The remainder of this chapter is structured as follows. Section 2 offers an 
overview and a categorization of annotation systems in the Digital Humanities. 
Section 3 reviews the existing literature on annotations, and Section 4 presents 
new data on public scholarly annotations. Sections 5 and 6 set out the findings 
and derive recommendations for software design. 


2 Annotations in the Digital Humanities: Concepts 
and Systems 


At least since the 1990s, shared digital annotation environments have been an 
active field of study, both within the Digital Humanities and in Computer and 
Information Sciences (e.g. Ovsiannikov et al. 1999) in general. However, the types 
of annotations discussed range from marginalia written for private use to digital 
editions and linguistic markup in text corpora (Hunter 2009, 1). Annotations of the 
latter two types constitute research findings that are published together with their 
respective annotation targets (i.e. the objects that annotations are attached to). It 
is clear that publishing these annotations is normally useful or even necessary. 
Therefore, annotations need to be categorized to distinguish between different 
degrees of a priori suitability for publication. However, there is no consensus in 
the literature on a useful typology of digital annotations. In his influential work 
on “Scholarly Primitives”, Unsworth (2000, 1) counted the practice of annotating 
among the “basic functions common to scholarly activity across disciplines". In a 
similar manner, the *Taxonomy of Digital Research Activities in the Humanities" 
project (TaDiRAH, Borek et al. 2016), which draws on Unsworth’s work, does not 
subcategorize "Annotating" any further, but subsumes the practices of *adding, 
e.g., comments, metadata or keywords" under the entry. In this taxonomy, an- 
notating is a subtype of “Enrichment”, as it makes information inherent to the 
annotation target explicit. Annotating is explicitly contrasted with “Commenting” 


5 https://elifesciences.org/ (20.01.2020) 
6 http://tadirah.dariah.eu/vocab/?tema-22 (20.01.2020) 
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Tab. 1: Annotation dimensions 


Category Annotation Target Type Annotation Metadata Depth 
Author/Reader Target 
Scope Granularity 
Values 1: Individual 1: Research 1: Publication/File — 1: Technical/Application- 
2: Collaboratory Literature — 2: Part of Specific 
3: (Scholary) 2: Primary Publication/File 2: Ad-hoc Semantics 
Public Source 3: Std.-Conformant 


Metadata (WADM) 
4: LOD (Target, Body) 


(a subtype of *Dissemination"), an activity that “serves to express some opinion, 
to add contextual information, or to engage in communication or collaboration.”” 
If these definitions are used to inform software design one-to-one, annotating 
has to be modeled as one function, and commenting as another. But the distinc- 
tion between “contextual information" and information which is “inherent” to 
the annotation target is too subtle for that purpose. Furthermore, there are con- 
ceptual doubts about whether a clearcut distinction between the two activities is 
empirically adequate: Walkowski (2016b, 9 f.) notes that in practice, annotating is 
most often part of other research activities. And with respect to annotating as a 
*Primitive", Unsworth later considered the possibility that some of the initial cate- 
gories might have to be further subcategorized (Unsworth and Tupman 2016, 232). 
Indeed, it can be shown that a more fine-grained subcategorization of annotating 
practices is helpful in constructing suitable use cases and, accordingly, functional 
requirements for software design. The factors presented in Table 1, which have 
in part been derived from Hunter's comprehensive typology (Hunter 2009, 4-14), 
form the basis for a tentative subcategorization of annotations and the software 
systems with which they can be produced. 

This choice of features is motivated as follows. Author scope and reader scope? 
indicate whether annotation authoring must be a function presented to all anno- 
tation readers, or if writing and reading functions can be facilitated by different 
software modules and interfaces. *Collaboratories" are defined in Cerf et al. (1993, 
7 £., cf. Agosti et al. 2004) as networked infrastructures enabling scientific collabo- 
ration. They differ from solitary working contexts in that they require networked 
software for shared annotations. In contrast to web-scale annotations, however, 
sharing is not necessarily required between applications, text collections and tasks 


7 http://tadirah.dariah.eu/vocab/?tema-44 (20.01.2020) 
8 Theterm was coined by Agosti et al. (2004, 245) 
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or research projects (a factor that limits the interoperability requirements). The 
target type is important because it helps to distinguish between typical source 
enrichment annotations (e.g. scholarly editions) and annotations on scholarly liter- 
ature (Agosti et al. 2004). The annotation target granularity differentiates between 
regular commenting systems, which are a common feature of online journals? 
and inline annotation systems, which are offered to journal readers less often. 
Finally, the metadata depth determines what kind of information is shared across 
application types, application instances and document collections. For example, 
typed links are a way to express the semantic relation between the annotation 
content and its target (Agosti 2005, 95). The WADM defines 13 types for this purpose, 
including “questioning” and “replying”.!° In contrast, an ad-hoc semantics does 
not conform to a standardized data model and is most likely defined at project level. 
Technical metadata comprises whatever metadata is needed by the application to 
store and display annotations. Linked Open Data (LOD“) is the metadata concept 
for Semantic Web applications. 

For all dimensions except the target type, values are ordered according to their 
(probable) implications: an annotation system that allows a single paragraph in a 
text to be targeted probably also allows an annotation to be made on the text as a 
whole. Software with LOD metadata produces technical metadata as well. 

Most annotation systems presented in DH contexts provide some sort of shar- 
ing function. The stand-alone marginalia tool Pliny is a rare exception in this 
respect. It is explicitly designed to foster *not so much social scholarly interac- 
tion but personal research" (Bradley 2008, par. 9) and is able to annotate local 
PDF files and web-based files (primary sources and articles alike). A much greater 
number of approaches focus on collaboratories. Bradley and Vetch (2007) discuss 
a tool that produces TEI-conformant metadata for the Online Chopin Variorum 
Edition (OCVE).? Bauer and Zirker (2015) report on a collaborative tagging task in 
an undergraduate university seminar in literature studies, where inline tags are 
defined at project level. De la Flor et al. (2010) test a prototypical Virtual Research 
Environment for the recognition of linguistic structures on historical inscriptions 
with a group of classicists. Gius and Jacke (2017) report on a combination of auto- 
mated and manual annotations of narratological structures in literary texts using 
the CATMA tool, which allows its TEI-XML-encoded metadata to be exported. 
Such a hybrid approach is also used by Müller-Birn et al. (2005) in the design of 


9 See e.g. DH Quarterly (http://digitalhumanities.org/dhq/about/about.html [20.01.2020]) 
10 https://www.w3.org/TR/annotation-model/#motivation-and-purpose (20.01.2020) 

11 https://en.wikipedia.org/wiki/Linked datafLinked open. data (20.01.2020) 

12 http://www.chopinonline.ac.uk/ocve/ (20.01.2020) 

13 https://catma.de/documentation/tei-export-format/ (20.01.2020) 
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the semantic annotation suite neonion. E-Carrel, a VRE for collaborative work with 
primary sources and literature, includes a tagging function and produces RDF-XML 
(Jones et al. 2010). 

Hypothesis'^ is a public annotation tool for authors and readers. It is de- 
signed for a wide range of uses, from open-access peer review to the inline annota- 
tion of scholarly articles by readers (Staines 2019). Annotations are fully WADM- 
conformant, but not all metadata specified by the standard are actually written by 
the system. For example, there is no way to write the WADM motivation tag. Instead, 
Hypothesis uses a comparably slim semantic model which is largely transparent 
to the user. In addition to web-based content, it can also be used to annotate local 
PDF files. Local annotations can be shared between different users across identical 
file copies. A recent application of this approach in the academic domain that 
goes beyond collaborative text production and review is the initiative "Annotation 
for Transparent Inquiry" (Karcher and Weber 2019). In the context of ATI, the 
Hypothesis function is integrated into an open-access journal and thus allows 
authors to publish relevant data along with the primary publication. ATI is thus an 
example of a concept where the scope differs for annotation readers and authors. 
It resembles the concept of “Living Reviews" developed by Bernhard Schutz and 
others for “Living Reviews in Relativity”, a review journal in the field of physics? 
(Wheary et al. 1998). 

The web-based annotation tool Pundit (Grassi et al. 2013) is designed for se- 
mantic annotations which contribute to a machine-readable Web of Data (Becker 
2016, 14) for public readers and authors alike. Pundit gives the user direct access 
to semantic web resources and writes LOD-conformant RDF triples. Since the en- 
tire data model is based on a Semantic Web Architecture, it is assumed that all 
annotation targets are also web-based resources. The system is suitable for both 
primary and scholarly literature, but reports on tests and deployments focus on 
the enrichment and interpretation of primary sources (e.g. Di Donato et al. 2013). 
In a laboratory test conducted during the development phase, users presented 
with sample tasks noted problems with the complexity of the interface, but gener- 
ally approved of the idea of enriching historical sources with Linked Open Data 
(Hennicke et al. 2015, 59 ff.). Annotations for authors of scholarly literature are 
mostly facilitated by page-level commenting systems with shallow metadata (e.g. 
in the Digital Humanities Quarterly!9). 


14 https://web.hypothes.is/ (20.01.2020) 
15 https://www.springer.com/journal/41114 (20.01.2020) 
16 See http://www.digitalhumanities.org/dhq/vol/11/4/000340/000340.html (20.01.2020) 
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Tab. 2: Observed annotation types” 


Category Annotation Tar- Annotation Meta- Supporting Public 
Author/Reader get Target data Software Platforms 
Scope Type  Granularity Depth'® (Examples) (Examples) 


Private Margi- 1/1 1,2 1,2 1 Pliny 

nalia 

Collaboratory/ 2/3 1,2 1,2 4  TEICHI, CAT- OCVE 
Edition MA, E-Carrel 
Publisher/Au- 1,2/3 1 1,2 3 Hypothesis ATI, Living, 
thor Journal Review 
Public Journal 3/3 1 1,2 3 Hypothesis DHQ 
Public Seman- 3/3 1,2 2 4 Pundit, 

tic Web neonion 


The tools and infrastructures discussed so far are categorized according to a tenta- 
tive typology in Table 2. This overview points to a negative correlation between the 
metadata depth and the scope of annotations: annotations with wider author scope 
tend to have a shallower metadata depth. In fact, we have not found a platform that 
includes a significant number of public reader-generated semantic annotations. 
Instead, the published systems and projects mostly focus on collaboratories with 
an asymmetric author/reader scope. These annotations are in general authored 
exclusively by members of the collaboratory and may be published as research 
findings afterwards. To the best of our knowledge, annotations of this type are the 
only major source of web-scale scholarly semantic annotations in the Humanities. 


3 Literature Review 


3.1 Forms and Functions of Annotations 


In an analysis of handwritten notes in library textbooks, Marshall (1997) shows 
that the production of marginalia is ubiquitous in academic reading. The move 
towards digital documents has not changed that, as Liu (2005) shows in a direct 


17 Thereference numbers refer to values defined in Table 1 on page 224. 

18 The values in this category are meant to represent the maximum values which have been 
observed. For example, not every system in the *Collaboratory" category actually writes Linked 
Open Data. 
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comparison of digital and non-digital reader annotations (see also Qayyum 2008). 
In thelarge-scale DARIAH-DiMPO survey, which covered the use of digital tools and 
methods among Humanities scholars, 65.5% of the respondents (N=2,176) stated 
that they annotated, curated and enriched their objects of research (Dallas et al. 
2017). 

The function of reader annotations is not necessarily to contribute new in- 
formation (Marshall 1997); they also add visual structure to texts and function 
as procedural signals in the context of a specific reading task. These functions 
correspond with features such as transience versus permanence and semantic 
explicitness versus implicitness (Marshall 1997, 6; Marshall 2000, 98). 

A typical work context for marginalia in the Humanities is writing a publica- 
tion which references other works of literature and primary sources. O'Hara et 
al. (2002) describe this type of use for professionals in different domains. From 
the perspective of the *Distributed Cognition" framework developed in cognitive 
writing research (Klein and Leacock 2012), they observe that the process or writing 
an article is structured by "intermediate texts", the production of which serves 
the purpose of cognitively *offloading" the reader-writer's working memory. Be- 
cause time and attention are critical factors in the process of annotating, it has 
to be *minimally disruptive" (O'Hara et al. 2002, 289), and the resulting texts are 
mostly implicit, transient and informal, in Marshall’s terminology. They are only 
meant to supply information to their author in a specific work context and for a 
relatively short period of time. Accordingly, formal and semantic features of private 
annotations are mostly idiosyncratic (cf. Blustein et al. 2011). This fact makes it 
probable that many, if not all of the marginalia a researcher produces during the 
compilation of a research article are not suitable for publishing. The transient and 
informal nature of annotations fits McCarty's description cited in the introduction. 
In contrast, the findings presented here do not seem to be compatible with the 
user experience of semantic annotation tools with rich metadata structures and 
complex user interfaces. 


3.2 Annotation Practices and Scholarly Workflows 


The question of to what end scholars write annotations can only be answered 
satisfactorily against the backdrop of a scholarly workflow model. Empirical work- 
flow studies in the Humanities have been conducted since at least the 1970s with 
the aim of investigating information behavior patterns and corresponding infor- 
mation needs. Of these studies, Uva's (1977) work is arguably the first to develop 
and test a sequential workflow model for humanists. Drawing on studies from 
the Social Sciences, he proposes the workflow phases Problem Selection, Detailed 
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Planning of Data Collection, Data Collection, Analyzing and Interpreting Data and 
Presenting Findings. However, the study concludes that a deterministic sequential 
process model is not realistic (Uva 1997, 16). While later works have postulated 
similar workflow elements, the concept of a deterministic sequential ordering of 
these steps has not been pursued further (Stone 1980, 1982; Case 1991). While 
Chu (1999, 259) observed the writing and reading of annotations in almost all 
research phases (cf. Antonijević and Cahoy 2014; Palmer et al. 2009, 188 f.), it does 
not seem possible to connect different types of annotations with specific degrees 
of formality and explicitness to different sequential workflow stages. Neither is 
there anything resembling a generalizable workflow pattern among humanists. 
On the contrary, working habits seem to be quite individual and idiosyncratic. For 
software design, this finding means that it is not feasible to offer different workflow 
applications with different annotation features for different workflow-related types 
of annotations, if information fragmentation is to be avoided (cf. Belanger 2010). 


3.3 Scholarly Personal Information Management 


During the research and writing processes, notes and annotations are generally 
kept in personal data files, becoming part of a scholar's Personal Information 
Management (PIM). According to Jones' (2007) definition, PIM encompasses the 
management of all task-related information activities, including storing, retrieval 
and curation. In a study of the PIM practices of historians, Case (1991) shows 
how information that is found in archives and the literature is stored in complex 
notebooks and on index cards for later retrieval in different contexts (e.g. new 
research projects). Similarly to scholarly workflows, PIM habits are widely believed 
to be guided by individual habits. 

Antonijević and Cahoy (2014) analyze scholarly PIM habits during all observed 
workflow phases, from information seeking to information archiving. They postu- 
late two general relevant factors relevant to the way scholars build their Personal 
Information Collections (PICs). First, interviewees express skepticism about remote 
storage in academic research data repositories and prefer to use commercial cloud 
services which allow the user to keep copies on their local hard drives. Second, 
scholars do not use integrated asset management systems with stand-off meta- 
data, but apply their own principles when ordering their information. The data is 
primarily stored as PDF files (cf. Cushing and Dumbleton 2017). Even bibliographi- 
cal reference management systems cannot be considered a standard tool among 
scholars (cf. Ollé and Borrego 2010, 225 ff.). These findings do not only pertain 
to older generations: similar observations have been made in a recent study on 
PhD students (Cushing and Dumbleton 2017, 45 f., see also Given and Willson 2018, 
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815 f.). In general, PIM techniques are habits that are developed over a long period 
of time and do not change quickly (Barreau 2008). Since annotation practices are 
to certain extent PIM practices, that explains why users have been slow to adopt 
new annotation systems. Furthermore, the fact that users seem to download texts 
rather than referencing online texts speaks against web-based annotation systems 
which cannot handle locally stored PDF files. 


3.4 Collaborative Working Practices 


The ideal case for using web-based annotation systems is collaborative work. Ac- 
cordingly, in order to assess how useful this centralized architecture is for the 
scholarly community at large, it is important to assess the role collaborative work 
plays in modern humanists’ working lives. 

A bird’s-eye view of collaboration in the Humanities is offered by the DiMPO 
survey. This states that 71% of 2,135 respondents collaborate “often or very often”. 
However, this finding stands in contrast to small-scale workplace and interview 
studies, which generally assume solitary research to be the norm. A case in point 
is Stone’s (1980, 17 ff.) study. Later works (e.g. Cronin 2003) conclude that schol- 
ars contact peers to gather information about research topics and organizational 
matters but still mostly carry out the actual research on their own. 

An often-used quantificational metric for collaboration is co-authorship. This 
approach has long been criticized, because, for example, colleagues might simply 
be included on author lists for social and strategical reasons (Katz and Martin 1997). 
On the other hand, since research in the Humanities does not in general necessitate 
the use of complex scientific instruments or a high degree of division of labor, it 
can be argued that co-authorship does at least suggest that the authors are likely 
to have worked on a research subject together (Burroughs 2017, 511). Judging from 
publication statistics alone, there can be no doubt that joint authorship is much 
less common in the Humanities than in STEM fields and in the Social Sciences. 
This has been shown for European countries (Ossenblok, et al. 2014; Piro, et al. 
2013, 309 f.) as well as for China (Ma et al. 2014) and for American universities 
(Burroughs 2017). If anything, recent bibliometric studies support the thesis that 
Humanities research still consists mainly of solitary work. Therefore, Bradley’s 
(2008) approach of providing an annotation tool for individual usage seems to 
match user needs. 
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3.5 Software Usage 


All the annotation environments discussed in Section 2 require users to stop using 
their stand-alone document viewer. However, the observations regarding scholarly 
PIM practices have already pointed to the persistence of individual working habits 
and conventional tool usage. Research findings about scholarly workflows have 
shown, in fact, that annotations are written and read at virtually any point of 
the research and publication process; they must be supported by whatever doc- 
ument software the scholar routinely uses, and the annotation must not result 
in a significant additional workload. In other words, annotation features must 
be readily available when reading documents. The question is: What software do 
researchers routinely use for reading and processing research documents? The 
DiMPO survey states that when it comes to storing research findings, standard 
office applications are by far the most popular software. Concerning the usage of 
*digital tools and methods", *annotating, enriching and curating" are the least 
frequently mentioned activities. It is not entirely clear what kind of annotations 
are referred to in the survey. However, from the survey findings, the conclusion 
can be drawn that the respondents do not use DH-specific annotation tools, but 
prefer annotation features embedded in general-purpose software packages. These 
findings are in line with a smaller usage study among German scholars (Stiller et 
al. 2015, 29). 

In a medium-scale mail survey (N=123), Müller-Birn et al. (2016, 5 ff.) collect 
much more detailed usage data. Presented with their categorization in “standard“ 
and "extended" software use use, roughly two thirds of the respondents identify 
themselves as within the latter category. From information about the specific types 
of software used, user group clusters are generated. One statistically significant 
group uses annotation features or software. This group, however, also stands out 
for using standard office software more often than other groups. There is thus 
no evidence that this group uses DH-specific annotation functions. Indeed, in an 
earlier interview study conducted by Müller-Birn et al. (2005, 224), all respondents 
state that they use standard office software for annotating text. This finding is 
confirmed by Given's recent study, in which a tool inventory compiled from inter- 
views of 20 faculty staff and graduate students in the Humanities reveals the use 
of DH-specific analysis tools and standard software, but does not include any (DH 
or general-purpose) annotation software (Given and Willson’? 2018, 810 ff.). 

An anthropological study by Antonijevic (2015, 38 ff.) complements these quan- 
titative studies. In qualitative interviews, she shows that the use of standard pro- 


19 The study shows, however, the widespread use of XML markup tools. 
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ductivity tool is prevalent in all phases of the research workflow among Humanist 
scholars. 

In combination, the findings presented here produce a complex picture: schol- 
ars use advanced software packages for research-specific purposes, but standard 
tasks, which surely include document reading and note-making, appear to be 
handled with standard tools. There is no explicit proof whatsoever that the use 
of DH-specific annotation tools facilitating annotation sharing is common among 
scholars. 


3.6 Direct empirical Evidence for Annotation Sharing among 
Humanists 


The studies presented so far have shown potential problems for the adoption of 
existing DH annotation environments, related not only to individual working habits 
but also to the observed features of marginal annotations. The findings cast some 
doubt on the idea that users might really want to publish their private annotations. 

There are some studies that examine informal textual annotations in online 
environments. Kopak and Chiang (2007) and Chiang (2010) analyze public online 
annotations in a laboratory setting with a small number of participants. Among 
the findings of these studies is strong approval for online annotations as a means 
of enhancing productivity and as a support for active reading, as well as approval 
for functions that allow the linking of external content. In a laboratory setting, 
Hemminger and TerMaat (2014) elicit opinions about sharing annotations. Re- 
spondents argue that they would prefer to subject their individual annotations to 
extensive revision before publishing them, and that they would prefer annotations 
not to be made anonymously. In a similar setup, Marshall and Brush (2004) asked 
test participants to choose which of their personal annotations to share, and to 
decide how to revise them beforehand. In both cases, the revisions involve making 
the content more explicit and “intelligible” for potential readers, which points to 
the implicit and idiosyncratic semantics of marginalia observed by Marshall in her 
earlier studies. Respondents in these studies voice a cautiously positive opinion 
about annotation-sharing in general, however. This finding mirrors Walkowski's 
(2016a, 6f.) small-scale study. 

A noteworthy feature of Hemminger and TerMaat's (2014) and Marshall and 
Brush's (2004) studies is that they describe a two-step process that involves first 
making a note for personal purposes and, in a later step, publishing it. There is no 
suggestion that public annotations could have been written as such, and therefore 
represent an annotation type sui generis. 
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All four studies have the limitation that they elicit data in purely hypothetical 
usage settings, using test sentences and non-production software. The resulting 
data is produced mostly through introspection and not collected by observation 
of daily work practices. It is difficult to evaluate how realistic and reliable the re- 
spondents’ statements about their hypothetical annotations are. For these reasons, 
laboratory studies of this kind should be complemented with actual field data to 
derive empirically grounded software design recommendations. 


4 Empirical Study: Public Annotations on 
eLifeSciences.org 


As the preceding sections have shown, annotation-sharing is not yet an established 
communication channel in the Humanities. There are examples of the successful 
introduction of both public commenting and annotation systems in other academic 
disciplines such as the Life Sciences. To the best of our knowledge, however, 
no study has been carried out systematically examining public scholarly inline 
annotations in real-life settings, and we were not able to find a data set from a 
Humanities context large enough to be representative of the field. This study aims 
to narrow this gap by examining how readers of the open-access Life Sciences 
magazine eLife use the Hypothesis annotation feature included in the site. With 
several thousand public annotations (Shaikh-Lesko 2019) made accessible via the 
Hypothesis API since its introduction in early 2018, it provides a valuable dataset 
to investigate patterns of use for scholarly annotation-sharing applications. 


4.1 Research Design 


eLife is an open-access journal that publishes articles classified into 18 Life Sci- 
ences research fields such as “Evolutionary Biology” or the “Physics of Living 
Systems”, as well as opinion pieces, announcements (such as calls for papers) 
and interviews categorized under the heading “Magazine”. For every article in 
the “Research” category, usage metrics (views, downloads, citations) are supplied. 
The Hypothesis plug-in is available for both categories and for every scientific 
sub-discipline covered in the journal. Annotation targets can be parts of the text or 
the text as a whole. Hypothesis replaced a conventional article-commenting system 
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in January 20182? Earlier comments were imported into Hypothesis and are now 
presented as page-level annotations (so-called *Page Notes"?!). The annotation 
function is not only presented to readers of published articles, but is also used in 
the review process. Many statements made and discussions held during the review 
are publicly available as annotations on the website. Furthermore, the publisher 
uses the feature for post-publication reviews and announcements concerning the 
article (updated versions, etc.)?? Annotation authors register at Hypothesis by 
supplying an ORCID (Open Researcher and Contributor ID), which is, however, not 
always published on the site. 

The data for this analysis were obtained from two sources. First, the Hypothesis 
API? was queried for content relating to elifesciences.org. Second, all articles were 
crawled that were published between October 15, 2012 and October 31, 2019, listed 
in searches for the general categories *Magazine" and "Research" and assigned a 
DOI on the webpage.‘ The resulting analysis sample consists of all the Hypothesis 
data for each annotation and bibliographical metadata for each published article. 

The principal question of this analysis is how the scientific audience of 
a publication interacts with its authors and publishers through the use of 
annotations. Therefore, the annotations were assigned to different annota- 
tion author roles: article author, publisher/reviewer and reader. These roles 
correspond to the two annotation types publisher/author journal and public 
journal as defined in Section 2. Since not every annotation author account 
is traceable to a particular person via an ORCID or other unique global iden- 
tifier, authorship was attributed heuristically according to the following rules: 


Article author (Sufficient conditions) 


1 Annotation author's first and last names are identical to one article author's 
first and last names. 


20 https://elifesciences.org/for-the-press/81d42f7d/elife-enhances-open-annotation-with- 
hypothesis-to-promote-scientific-discussion-online (20.01.2020) 

21 https://elifesciences.org/labs/3f85f8c2/enabling-scientific-discussion-on-elife-with- 
hypothesis (20.01.2020), par. 11 ff. 

22 Shortly after its introduction in 2018, eLife published an early overview of how the annotation 
tool was being used by readers, authors and publishers: https://elifesciences.org/inside-elife/ 
7affe390/elife-latest-how-readers-are-using-annotations-on-our-website (20.01.2020) 

23 https://hypothes.is/api/, https://h.readthedocs.io/en/latest/api-reference/ (20.01.2020) 

24 Search-URL https://elifesciences.org/search (20.01.2020). DOIs were extracted with an XPath 
expression. 
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2) Annotation author refers to him- or herself as an/the author in the annotation 
(e.g. “our publication"?5). 

3) Annotation author's account is connected to a publicly available ORCID ac- 
count and the account's name and publication list match the article. 

4) (Necessary condition) The annotation does not express a question about the 
article. 


Publisher/Reviewer (Sufficient conditions) 


1 User account is “eLife Journal". 

2) Annotation author refers to him- or herself as a member of the journal staff in 
the annotation text 26 

3) Annotation text is an announcement of corrections, new versions or other 
actions on behalf of the publisher, and the annotation is not an author anno- 
tation. 


Reader (Necessary conditions) 


1 The annotation is by neither an author nor a publisher/reviewer, according to 
the conditions given above. 
2) The annotation is not bot-generated.?7 


This categorization aims to characterize scholarly conversation about an article 
with respect to which role each annotation author takes on in the discussion. 
Therefore, the professional affiliation of each author is of secondary importance. 
For example, the article affiliation of the annotation can be categorized as external 
if its author is involved in a discussion on the article, rather than referring to the 
review and publication process, even if the annotation author is a member of the 
editorial board. For the Article author category, rule 1 technically leaves some 
ambiguity with respect to namesakes. A reader bearing the same name as one 
of the authors could be wrongly categorized as the article author. In the analysis 
sample, however, no cases surfaced where an annotation author with a namesake 
account voiced a question or critique of the article. Uncertain cases concerning 
namesake accounts are thus reduced to potential cases where annotations simply 
add further, publicly available information to an article and where no specific 
author attribution was possible by applying the above rules. The same applies to 


25 https://hyp.is/Oq ACgXREeiBz9cPIcOU6w/elifesciences.org/articles/19088 (20.01.2020) 
26 In some cases the account can also be validated via the ORCID. 
27 Abot generated automated annotations, identifiable by a specific account name. 
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Publisher/Reviewer accounts. Therefore, the uncertainty inherent in this heuristic 
method of authorship attribution appears to be negligible. 

Another feature of the data sources is harder to control for. The fact that 
annotations can be made on older articles without any time limit introduces a bias 
into the sample. It is to be expected that the newer an article, the larger the set of 
annotations that have been and will be added to this article after the data collection 
has been conducted. It can be assumed that this bias results in lower numbers for 
reader annotations in relation to annotations made by publishers and reviewers, 
as well as lower numbers for newer annotations in relation to page-level comment 
annotations made before Hypothesis was added to eLife in January 2018.28 Neither 
relationship is of concern to the present analysis. Nonetheless, to alleviate this 
bias, while annotations were collected up to and including the publishing date 
of November 30, 2019, articles were collected up to and including the publishing 
date of October 31, 2019?? Increasing the time distance between the article and 
annotation publication even further would have diminished the already small 
sample too much and thereby obviated a quantitative analysis. 


4.2 Quantitative Analysis 


With the above filters in place, the sample consists of 7481 articles, of which 6,669 
are classified as research articles and 812 belong to the *Magazine" section. The 
call to the Hypothesis API retrieved 2,000 human-generated annotations linked 
to articles within the sample. Other annotations were either linked to articles not 
included in the sample, were not classified as reader annotations or were generated. 
Of the 891 Reader annotations, 375 belong to the magazine section and 516 are 
research annotations. Filtering out imported comments produces the core sample 
of 108 reader research annotations made with Hypothesis. This sample is compared 
with reader magazine annotations from the same time period and with imported 
comment annotations. Some baseline counts are given in Table 3 on the next page. 

Given this relatively low number, the question seems justified of whether the 
annotation feature, and the inline annotation feature in particular, are used at 
all by a relevant percentage of readers. The 108 research reader annotations are 
distributed among 66 articles and are written by 66 authors. This means that usage 


28 The official launch of the feature was in January 2018. But in order to simplify the differentiation 
between annotations in the old and in the new environment, annotations from that month were 
cut out of the two samples. 

29 Of course, annotations published in November 2019 were only included in the sample if they 
belong to articles published before November 2019. 


An Online Field Study on Scholarly Journal Annotations —— 237 


Tab. 3: Quantitative results (Reader annotations) 


Total inline No. of No.of 80th Percentile Ext. 
(pct.) Annotated Annotated Text Length Ref. 
Articles Authors (No. of Words)  (pct.) 
Research Annotations 108 95.4 66 66 68 35.2 
(Hypothesis) 
Magazine Annotations 55 92.7 17 31 67 54.5 
(Hypothesis) 
Comments Research 391 X 257 352 157 
(Before Hypothesis) 


of the annotation feature is at least not due to an insignificantly small number of 
early adopters. Of course, however, Hypothesis reader annotations on research 
articles?? (mean of 0.02) are much less common than citations (mean of 4.5). The 
number of comment annotations on pages in the older sample is of course much 
higher (mean of 0.06), as is the mean number of citations of articles from that 
period (mean of 30.3). 

During the principal observation period of 2018-2019, readers could publish 
both inline annotations and page comments. The findings in Table 3 make it clear 
that users preferred the inline feature over Page Notes. Unless the annotation 
targets were chosen randomly within the annotated text, it is obvious that in most 
cases users made a conscious decision to direct their argument at a certain portion 
of the text. 

The text length of annotations can be used as an albeit coarse quantificational 
measure for their content: very short annotations in the sample tend to be relatively 
unspecific remarks (“Helpful” 3t), whereas the data also contains many annotations 
that are in fact lengthy reviews of the annotated articles and do not target a specific 
part or aspect of its content. As a measure less sensitive to outliers than the mean 
value, the 80th percentile for the text length (68, mean of 90.3) in the research 
article sample shows that most annotations are relatively short texts. Annotations 
with less than 10 words appear 26 times in the sample. There is also a strong 
correlation between the text length and the structural type of annotation: the 
80th percentile is 574 (mean of 528.8) for page comments in contrast to 67 (mean 
of 69) for inline annotations. The numbers can be seen as evidence that inline 
annotations constitute another text type compared with the page comments in 


30 Articles published during the Hypothesis deployment period 2018-2019. Of course, during 
that time also older articles could be annotated with the new tool. 
31 https://hyp.is/XfTuOIrLEeiB7PtOmyZchA/elifesciences.org/articles/22784 (20.01.2020) 
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the sample. Comments in the older sample are also longer (mean of 182.7) than 
inline annotations, but shorter than the page comments in the newer sample. It 
seems that users employed the commenting function for two types of annotations 
which are distributed between page comments and inline annotations in the newer 
dataset (i.e. after the introduction of Hypothesis). One possible conjecture which 
can be derived from these findings is that most annotations are thematically related 
to a specific part of the annotated text. 

The reply feature in annotation systems facilitates scholarly discussions rather 
than isolated remarks on the underlying articles. In the analysis sample, it is used 
in a significant number of cases. Replies and answers within the sample of human- 
generated annotations of all author affiliations (N=2,000) together form 112 reply 
chains. However, the dynamics of these conversations are quite limited. In the 
whole research-article sample (1517 annotations, 86 chains), there are only 15 reply 
chains of a length greater than 2,? and only 10 reader annotations are replies to 
other reader annotations. This is due to the fact that replies to annotations are 
mostly author/publisher answers to reader questions. 

In earlier empirical works, great emphasis is placed on the linking function 
of annotations that reference external content via hyperlinks and bibliographical 
notes (Chiang and Kopak 2007)? In the analysis sample, implicit and explicit 
links to datasets and to the literature occur in more than one third of the research 
annotations. From these findings it can be hypothesized that annotations mostly 
express and link scholarly arguments rather than making subjective statements. 


4.3 Qualitative Analysis 


In order to more accurately assess the scientific contribution which the reader- 
generated annotations in the sample made to scholarly discourse, they were cate- 
gorized into different content classes. Following Agosti et al. (2004, 5), annotations 
are modeled as “dialogue acts”, in analogy to the Speech Act theory developed in 
Linguistic Pragmatics (e.g. Austin 1962). This approach helps to identify acts of 
communication performed by annotations while abstracting from the syntactic 
form of sentences. The question *How come this paper is neither cited nor dis- 
cussed in the eLife paper?"?^ is, in this line of thinking, categorized as a criticism 
of the article's Related Work section rather than as a question. On the other hand, 
*The source of PP2 cannot be found in the methods section. It would be great if the 


32 https://hyp.is/ztSfsEgYEemuOm81Z58awQ/elifesciences.org/articles/43599 (20.01.2020) 
33 https://journals.uic.edu/ojs/index.php/fm/article/view/1961/1838#k3 (20.01.2020) 
34 https://hyp.is/;5PyWqAXWEeiMW8--MW]1EA/elifesciences.org/articles/05322 (20.01.2020) 
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authors comment on this"? is a dialogue act that calls on the authors/publishers 
to supply additional information and can therefore be classified as an informa- 
tion request rather than a simple assertion. These dialogue acts are similar to the 
annotation classes in WADM (cf. Section 2). But some annotations in the sample 
are texts of considerable length and express more than one dialogue act. This is 
why the content classification remains coarse and focuses on the contribution the 
annotation makes to the article's content. Two main classes are of importance 
in this respect: the contribution of information/content versus a request for in- 
formation/content. Texts of a more subjective and evaluative nature, as well as 
unclear cases, have to be differentiated from these two main types. This leads to 
the following content classification: 
1 Assertion/Contribution 
Statement about the annotation target that is qualified by either explicit ex- 
planations or recourse to external information sources, or an evaluation of a 
specific property of the annotation target. The statement contributes additional 
information (resources) 
2) Information Request 
Request for information (resources) regarding the topic of the annotation target 
that does not make a contribution as defined in 1) 
3) Unspecified Praise or Criticism 
Evaluation of the annotation target for which no reason is given explicitly and 
that does not meet the conditions for 1) or 2) 
4) Unclear 
Annotations that do not belong in any of the above categories or that can be 
attributed to both 1) and 2) 


The main aim of this categorization is to differentiate between annotations which 
contribute information in a broader sense and those which request such informa- 
tion. The latter two types are either not explicitly related to an article's content 
(3) or do not fit into any of the above categories (4). This categorization would be 
more informative if it differentiated between, say, a question about the meaning of 
a diagram* (i.e. the publication per se) and a question concerning certain details 
of the research design (i.e. the publication's content and scientific contribution). 
However, more fine-grained differentiations between form/representation and 
content as semantic targets of annotations did not prove to be strictly selective 
when applied to the analysis sample. 


35 https://hyp.is/xeMhkF6xEeia6pN7vEXmyQ/elifesciences.org/articles/20142 (20.01.2020) 
36 https://hyp.is/1ipUIgXQEeiZyp. CHrjqCA/elifesciences.org/articles/08347 (20.01.2020) 
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Tab. 4: Frequencies of annotation content types 


Research Annotations Hypothesis Research Annotations 


2012-2019 2018-2019 
1 Assertion/Contribution 65.196 64.896 
2 Information Request 17.6% 15.7% 
3 Unspecified Praise/Criticism 7.9% 4.6% 


4 Unclear 9.3% 14.8% 


Assertions in the sense described above comprise criticism, e.g. concerning the 
methodology, corrigendum notices concerning the representation of information 
in the article, and/or additional information on the research topic. For example, 
annotations often contain links to related scientific publications. In many such 
cases, links to other articles corroborate an argument that the annotation author 
is making. In cases where the annotation author identifies him- or herself as the 
author of the referenced article, the annotation constitutes a direct exchange of 
scientific arguments. 

Information requests often call for explanations of the article’s content or 
aspects thereof, e.g. the meaning of a diagram. Information is also requested about 
the article content per se, e.g. details of the research design that are not directly 
mentioned in the text. As has already been pointed out, requests are not necessarily 
signaled by the syntactic form of a question.” These dialogue acts are intended 
to help annotators and readers of annotations to understand the content of the 
article, rather than to discuss and evaluate it. 

The class “unspecified praise/criticism” comprises annotations that do not 
supply new information along with the evaluation of the article authors’ work. 
Most often, annotations in this category resemble a written form of applause: “Very 
helpful work. Thanks.” 8 A similar gesture is thanking another annotation author 
for replying to a question. Annotations in the residual “unclear” category include 
annotations that contain tags and no text. These tags are used on the Hypothesis 
platform for searches across tagged webpages and thus serve as a cataloging device. 

Table 4 shows that the five content types do indeed classify the analysis sample 
in an appropriate way. The number of unclear examples in each category is not 
large enough to distort the relative probabilities in the other three categories. The 
high percentage of unclear types for the Hypothesis annotations is largely due 
to test annotations made during the introduction phase. In order to assess the 


37 https://hyp.is/xeMhkF6xEeia6pN7vEXmyQ/elifesciences.org/articles/20142 (20.01.2020) 
38 https://hyp.is/CF400AXREeieiFvGf9taLA/elifesciences.org/articles/04766 (20.01.2020) 
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reliability of the content type classification done by the author of this study, a 
student assistant classified a subset of the data. The inter-rater reliability score 
(Cohen's kappa coefficient) is 0.54.39 

Summing up, most reader annotations on the journal platform under analysis 
contribute additional information to the article or offer criticism in the form of 
short reviews. These contributions are not only comments, but also enrich the 
information offered by the online article, thus qualifying as annotations according 
to the TaDiRAH taxonomy. A secondary function is to serve as a “service” communi- 
cation channel through which authors and publishers help readers to understand 
the article’s content. 


5 Discussion 


Two limitations of the study presented in the preceding section are worth mention- 
ing. First, the object of study is a Life Science journal and thus does not provide 
direct empirical evidence for annotation practices in the Humanities. However, 
the types of dialogue acts described here (methodological questions, criticism 
and replies) are in no way specific to any specific academic discipline or research 
method. Therefore, it seems plausible to extend the conclusions drawn here to 
the Arts and Humanities disciplines. The second limitation is the relatively low 
number of annotations in the core sample. It is clear that further research needs 
to be carried out once more annotation data is available. On the other hand, the 
content analysis has shown clear patterns which are persistent throughout the 
whole analysis sample. 

The scientific value of the contribution which annotations make can of course 
not be assessed objectively in this analysis. But the relatively low number of anno- 
tations that do not supply arguments behind their evaluation of the article content 
allows the conclusion to be drawn that most annotations are not the spontaneous 
“scribbles” which have been observed in private marginal annotations, but are 
instead elaborated, curated statements, which confirms Hemminger and TerMaat’s 
(2014) and Marshall and Brush’s (2004) findings. 

In general, public scholarly comments and annotations on research publi- 
cations still appear to be a rare exception rather than the norm. Some authors 
have attributed this to an apparent lack of incentives, since annotations are not 
an established form of micro-publications (cf. Hemminer and TerMaat 2004, 2287; 
Shaikh-Lesko 2019). Examination of the analysis sample, however, reveals quite a 


39 Some raw data is available here: https://doi.org/10.6084/m9.figshare.11872530.v2 (20.01.2020) 
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number of obvious motivations. Authors carrying out research or publishing on a 
topic related to the annotated publication insert references to their own work,^? 
thus promoting it. Other researchers can also defend differing views on a scientific 
subject.“ The general audience, on the other hand, gets the chance to ask and 
receive answers to questions about the article content.“ The relatively low annota- 
tion rate can be explained by the often-noted restraint that interviewees expressed 
about making public statements about scientific works (Hemminger and TerMaat 
2014). 

As noted in Section 2, many annotation tools produce elaborate machine- 
readable metadata. Since annotation authors upload carefully crafted texts, it is 
reasonable to assume that they would also make the effort to apply additional 
metadata to their texts manually. But more empirical work is definitely needed to 
answer the question of how much work readers of scholarly online journals are 
willing to invest in order to create semantic annotations. 

Concerning the form, function and content of the observed Reader annotations, 
it is clear that they lack the features which have been identified for individual 
marginal annotations: implicit semantics, relatively short text lengths and an 
apparently short attention span on behalf of the annotation author. This was 
predicted by the laboratory studies discussed in Section 3.6. The question arises 
of whether public annotations can be thought of as being a revised version of 
individual marginal annotations or if they represent an annotation type sui generis. 
From the analysis findings, no clear answer can be given. However, many of the 
annotations in the sample represent genuine dialog acts and would be useless 
in PIM contexts. Qualified criticism, on the other hand, makes up a large part of 
the Contribution annotations in the sample. Such content is likely to also occur in 
private collections. Given the possibility to annotate PDF files offline, then upload 
them to the repository of public online annotations, it is plausible to assume 
that such annotations would be written in private and uploaded after revision. 
Tracing the origin of annotations is, however, beyond the scope of this chapter. This 
analysis step would involve the retrieval and analysis of annotations that have been 
explicitly marked by users as private. Either way, from the perspective of software 
design, it does not seem useful to treat marginalia and journal annotations as one 
type of use case. In the hypothetical process of revising (and possibly, rewriting) 
a marginal annotation for publication, the additional effort required to move the 
text from one application to another does not seem to make much of a difference. 


40 https://hyp.is/-vmaNAXUEei5]yczByagzg/elifesciences.org/articles/00326 (20.01.2020) 
41 https://hyp.is/Ug6óWZgXREeisju 9ycWXNQ/elifesciences.org/articles/21634 (20.01.2020) 
42 https://hyp.is/zpO0 | AXREeiKVrdkA4ckFng/elifesciences.org/articles/27483 (20.01.2020) 
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Instead, writing a public annotation with the help of marginal annotation software 
can be modeled in the same way as writing a research paper with the help of private 
annotations. This finding adds plausibility to the tentative typology presented in 
Section 2. 


6 Summary and Outlook 


The most important finding of this study is that Humanities scholars are probably 
willing to engage in discussions about research findings in online environments if 
they are presented with an easy-to-use interface. The second finding is that this 
engagement probably bears no relation to the way their personal data collections 
are structured and enriched by annotations. Instead, from the perspective of soft- 
ware engineering in the Digital Humanities, at least three types of annotations 
have to be accounted for: idiosyncratic marginal annotations, enrichments pro- 
duced in collaborative work environments and annotations “born online” that 
become elements of asynchronous scholarly dialogs. Thus, it seems that McCarty 
is right: There will never be a “one-size-fits-all design” (McCarty 2020, 274) and no 
“killer application" (Juolas 2008) for all relevant cases of annotation use in the 
Humanities. 


Bibliography 


Adriano, Christian Medeiros and Ivan Luiz Marques Ricarte. Essential Requirements for Di- 
gital Annotation Systems. In: Revista de Sistemas de Informação da FSMA 9-21. 2012, 
pp. 24-44. URL: http://www.fsma.edu.br/si/edicao9/FSMA SI. 2012 1 Principal 3 en.pdf 
(20.01.2020). 

Agosti, Maristella, Hanne Albrechtsen, Nicola Ferro, Ingo Frommholz, Preben Hansen, Nicola Orio, 
Emanuele Panizzi, Annelise Mark Pejtersen, and Ulrich Thiel. DiLAS: A Digital Library Annota- 
tion Service. In: Jean-Francois Boujut (Ed.), Proceedings of Annotation for Collaboration - A 
Workshop on Annotation Models, Tools and Practices. Paris: CNRS - Programme société de 
l'information. 2005, pp. 91-101. 

Agosti, Maristella, Giorgetta Bonfiglio-Dosio, and Nicola Ferro. A Historical and Contemporary 
Study on Annotations to Derive Key Features for Systems Design. In: International Journal on 
Digital Libraries 8 (1). Berlin: Springer Verlag. 2007, pp. 1-19. DOI: 10.1007/s00799-007- 
0010-0. 

Agosti, Maristella, Nicola Ferro, Ingo Frommholz, and Ulrich Thiel. Annotations in Digital Libraries 
and Collaboratories - Facets, Models and Usage. In: Rachel Heery and Liz Lyon (Eds.), 
Research and Advanced Technology for Digital Libraries (Lecture Notes in Computer Science). 
Berlin, Heidelberg: Springer. 2004, pp. 244-255. DOI: 10.1007/978-3-540-30230-8 23. 


244 — Felix Lange 


Antonijević, Smiljana. Amongst Digital Humanists - An Ethnographic Study of Digital Knowledge 
Production. New York: Palgrave Macmillan US. 2015.DOI: 10.1057/9781137484185. 

Antonijević, Smiljana. Developing Research Tools via Voices from the Field. In: dh+lib. 2016. URL: 
https://acrl.ala.org/dh/2016/07/29/developing-research-tools-via-voices-from-the-field/ 
(20.01.2020). 

Antonijević, Smiljana and Ellysa Stern Cahoy. Personal Library Curation: An Ethnographic Study of 
Scholars’ Information Practices. In: Portal. Libraries and the Academy 14 (2). Baltimore, MD: 
Johns Hopkins University Press. 2014, S. 287-306. DOI: 10.1353/pla.2014.0010. 

Austin, John Langshaw. How to Do Things with Words. Oxford: Oxford University Press. 1962. 

Bauer, Matthias and Angelika Zirker. Whipping Boys Explained: Literary Annotation and Digital 
Humanities. In: Kenneth Price and Ray Siemens (Eds.), Literary Studies in the Digital Age. 
New York: Modern Language Association of America. 2015. DOI: 10.1632/1sda.2015.12. URL: 
https://dlsanthology.mla.hcommons.org/whipping-boys-explained-literary-annotation- 
and-digital-humanities/ (20.01.2020). 

Barreau, Deborah. The Persistence of Behavior and Form in the Organization of Personal Infor- 
mation. In: Journal of the American Society for Information Science and Technology 59 (2). 
Hoboken, NJ: Wiley-Blackwell. 2008, pp. 307-317. DOI: 10.1002/asi.20752. 

Becker, Rainer, Michael Bender, Luise Borek, Canan Hastik, Thomas Kollatz, Beata Mache, Harald 
Lordick, and Ruth Reiche. Digitale Annotationen: “Best Practices” und Potentiale (R 6.2.1) 
Teil Il. [Research Report]. DARIAH-DE. 2016. URL: https://wiki.de.dariah.eu/download/ 
attachments/14651583/r621_2.pdf?version=2&modificationDate=1552902388945&api=v2 
(20.01.2020). 

Belanger, Marie-Eve. Annotations and the Digital Humanities Research Cycle: Implications for 
Personal Information Management. iConference 2010. Urbana-Champaign, IL, USA. 2010. 
URL: http://hdl.handle.net/2142/15035 (20.01.2020). 

Blair, Ann. Note Taking as an Art of Transmission. Critical Inquiry 31 (1). Chicago, IL: The Univer- 
sity of Chicago Press. 2004, pp. 85-107. DOI: 10.1086/427303. 

Blustein, James, David Rowe, and Ann-Barbara Graff. Making Sense in the Margins: A Field Study 
of Annotation. In: Gradmann, Stefan, Francesca Borri, Carlo Meghini, Heiko Schuldt (Eds.), 
Research and Advanced Technology for Digital Libraries. Berlin, Heidelberg: Springer-Verlag. 
2011, pp. 252-259. 

Bold, Melanie Ramdarshan and Kiri L. Wagstaff. Marginalia in the Digital Age: Are Digital Reading 
Devices Meeting the Needs of Today’s Readers? In: Library & Information Science Research 
39 (1). Amsterdam: Elsevier. 2017, pp. 16-22. DOI: 10.1016/j.lisr.2017.01.004. 

Borek, Luise, Quinn Dombrowski, Jody Perkins, and Christof Schóch. TaDiRAH: A Case Study 
in Pragmatic Classification. In: Digital Humanities Quarterly 010 (1). 2016. URL: https:// 
digitalhumanities.org/dhq/vol/10/1/000235/000235.html (20.01.2020). 

Bradley, John. Thinking about Interpretation: Pliny and Scholarship in the Humanities. In: Literary 
and Linguistic Computing 23 (3). Oxford: Oxford University Press. 2008, pp. 263-279. DOI: 
10.1093/llc/fqn021. 

Bradley, John and Paul Vetch. Supporting Annotation as a Scholarly Tool—Experiences From the 
Online Chopin Variorum Edition. In: Literary and Linguistic Computing 22 (2). Oxford: Oxford 
University Press. 2007, pp. 225-241. DOI: 10.1093/llc/fqm001. 

Burroughs, Jennie M. No Uniform Culture: Patterns of Collaborative Research in the Humanities. 
In: Portal 17 (3). Baltimore, MD: Johns Hopkins University Press. 2017, pp. 507—527. DOI: 
10.1353/pla.2017.0032. 


An Online Field Study on Scholarly Journal Annotations —— 245 


Carpenter, Todd A. iAnnotate — Whatever Happened to the Web as an Annotation System? In: The 
Scholarly Kitchen. April 30, 2013. URL: https://scholarlykitchen.sspnet.org/2013/04/30/ 
iannotate-whatever-happened-to-the-web-as-an-annotation-system/ (20.01.2020). 

Case, Donald Owen. The Collection and Use of Information by Some American Historians: A Study 
of Motives and Methods. In: The Library Quarterly: Information, Community, Policy 61 (1). 
Chicago: The University of Chicago Press Books. 1991, pp. 61-82. 

Cerf, Vinton G., et al. National Collaboratories: Applying Information Technologies for Scientific 
Research. Washington, DC: National Academy Press. 1993. URL: https://www.nap.edu/ 
read/2109/chapter/3#7 (20.01.2020). 

Chiang, Chia-Ning. A Multi-Dimensional Approach to the Study of Online Annotation. University of 
British Columbia. [Dissertation]. 2010. DOI: 10.14288/1.0071066. 

Chu, Clara M. Literary Critics at Work and Their Information Needs: A Research-Phases Model. 
In: Library & Information Science Research 21 (2). Amsterdam: Elsevier. 1999, pp. 247-273. 
DOI: 10.1016/S0740-8188(99)00002-X. 

Cronin, Blaise. Scholarly Communication and Epistemic Cultures. In: New Review of Aca- 
demic Librarianship 9 (1). London: Taylor & Francis. 2003, pp. 1-24. DOI: 10.1080/ 
13614530410001692004. 

Cushing, Amber L. and Odile Dumbleton. “We Have to Make an Effort with It”: Exploring the Use 
of Stages to Help Understand the Personal Information Management Needs of Humanities 
and Social Science Doctoral Students Managing Dissertation Information. In: IFLA Journal 43 
(1). London: Sage Publications Sage UK. 2017, pp. 40-50. DOI: 10.1177/0340035216686983. 

Dallas, Costis, Claire Clivaz, Nephelie Chatzidiakou, Jurij Hadalin, Elena Gonzalez-Bianco, 
Beat Immenhauser, and Maciej Maryl. DiMPO — a DARIAH Infrastructure Survey on Digital 
Practices and Needs of European Scholarship. In: Fabio Ciotti and Gianfranco Crupi (Eds.), 
AIUCD2017 - Book of Abstracts. Rome: Associazione per l'Informatica Umanistica e la 
Cultura Digitale. 2017, pp. 197—199. DOI: 10.6092/unibo/amsacta/5885. 

Di Donato, Francesca, Christian Morbidoni, Simone Fonda, Alessio Piccioli, Marco Grassi, and 
Michele Nucci. Semantic Annotation with Pundit: A Case Study and a Practical Demonstra- 
tion. In: Proceedings ofthe 1st International Workshop on Collaborative Annotations in 
Shared Environment: Metadata, Vocabularies and Techniques in the Digital Humanities 
DH-CASE ’13. New York: ACM. 2013, pp. 16:1-16:4. DOI: 10.1145/2517978.2517995. 

de la Flor, Grace, Marina Jirotka, Paul Luff, John Pybus, and Ruth Kirkham. Transforming Scholarly 
Practice: Embedding Technological Interventions to Support the Collaborative Analysis 
of Ancient Texts. In: Computer Supported Cooperative Work (CSCW) 19 (3). Heidelberg: 
Springer. 2010, pp. 309-334. DOI: 10.1007/510606-010-9111-1. 

Gius, Evelyn and Janina Jacke. The Hermeneutic Profit of Annotation: On Preventing and Fos- 
tering Disagreement in Literary Analysis. In: International Journal of Humanities and 
Arts Computing 11 (2). Edinburgh: Edinburgh University Press. 2017, pp. 233-254. DOI: 
10.3366 /ijhac.2017.0194. 

Given, Lisa M. and Rebekah Willson. Information Technology and the Humanities Scholar: 
Documenting Digital Research Practices. In: Journal of the Association for Information 
Science and Technology 69 (6). Hoboken, NJ: Wiley. 2018, pp. 807-819. DOI: 10.1002/asi. 
24008. 

Grassi, Marco, Christian Morbidoni, Michele Nucci, Simone Fonda, and Francesco Piazza. Pundit: 
Augmenting Web Contents with Semantics. In: Literary and Linguistic Computing 28 (4). 
Oxford: Oxford University Press. 2013, pp. 640—659. DOI: 10.1093/lIc/fgt060. 


246 —— FelixLange 


Hemminger, Bradley M. NeoNote: Suggestions for a Global Shared Scholarly Annotation System. 
In: D-Lib Magazine 15 (5/6). 2009. DOI: 10.1045/may2009-hemminger. 

Hemminger, Bradley M. and Julia TerMaat. Annotating for the World: Attitudes toward Sharing 
Scholarly Annotations. In: Journal of the Association for Information Science and Technology 
65 (11). Oxford: Oxford University Press. 2014, pp. 2278-2292. DOI: 10.1002/asi.23124. 

Hennicke, Steffen, Stefan Gradmann, Kristin Dill, Gerold Tschumpel, Klaus Thoden, Christian 
Morbindoni, and Alois Pichler. D3.4 — Research Report on DH Scholarly Primitives. 2015. 
URL: https://dm2e.eu/files/D3.4_2.0_Research_Report_on_DH_Scholarly_Primitives_ 
150402.pdf (20.01.2020). 

Hunter, Jane. Collaborative Semantic Tagging and Annotation Systems. In: Annual Review of 
Information Science and Technology 43 (1). Hoboken, NJ: Wiley. 2009, pp. 1-84. DOI: 
10.1002/aris.2009.1440430111. 

Hunter, Jane, Tim Cole, Robert Sanderson, and Herbert Van de Sompel. The Open Annotation Col- 
laboration: A Data Model to Support Sharing and Interoperability of Scholarly Annotations. 
In: Proceedings of the Digital Humanities 2010 Conference. London: Centre for Computing in 
the Humanities, King’s College London. 2010. URL: http://dh2010.cch.kcl.ac.uk/academic- 
programme/abstracts/papers/html/ab-860.html (20.01.2020). 

Jones, Steven E., Peter Shillingsburg, and George K. Thiruvathukal. E-Carrel: An Environment 
for Collaborative Textual Scholarship. In: Journal of the Chicago Colloquium on Digital 
Humanities and Computer Science 1 (2). 2010. DOI: 10.6082/M1GB227B. 

Jones, William. Personal Information Management. In: Annual Review of Information Science 
and Technology 41 (1). Hoboken, NJ: Wiley. 2007, pp. 453—504. DOI: 10.1002/aris.2007. 
1440410117. 

Juola, Patrick. Killer Applications in Digital Humanities. In: Literary and Linguistic Computing 23 
(1). Oxford: Oxford University Press. 2008, pp. 73-83. DOI: 10.1093/llc/fqm042. 

Karcher, Sebastian and Nicholas Weber. Annotation for Transparent Inquiry: Transparent Data 
and Analysis for Qualitative Research. In: IASSIST Quarterly 43 (2). 2019, pp. 1-9. DOI: 
10.29173/iq959. 

Katz, J. Sylvan and Ben R. Martin. What Is Research Collaboration? In: Research Policy 26 (1). 
Amsterdam: Elsevier. 1997, pp. 1-18. DOI: 10.1016/S0048-7333(96)00917-1. 

Klein, Perry and Tracey Leacock. Distributed Cognition as a Framework for Understanding 
Writing. In: V. W. Berninger (Ed.), Past, Present and Future Contributions of Cognitive Writing 
Research to Cognitive Psychology. New York, London: Psychology Press. 2012, pp. 133-152. 

Kopak, Rick and Chia-Ning Chiang. Annotating and Linking in the Open Journal Systems. In: First 
Monday 12 (10). Chicago, IL: University of Illinois. 2007. DOI: 10.5210/fm.v12i10.1961. 

Liu, Ziming. Reading Behavior in the Digital Environment: Changes in Reading Behavior Over 
the Past Ten Years. In: Journal of Documentation 61 (6). Bingley: Emerald Publishing. 2005, 
pp. 700-712. DOI: 10.1108/00220410510632040. 

Lordick, Harald. Crossing Borders Through (Web) Annotations. [Presentation] May 29, 2015. DOI: 
10.5281/zenodo.32509. 

Lordick, Harald, Rainer Becker, Michael Bender, Luise Borek, Canan Hastik, Thomas Kollatz, 
Beata Mache, Andrea Rapp, Ruth Reiche, and Niels-Oliver Walkowski. Digitale Annotationen 
in der Geisteswissenschaftlichen Praxis. In: Bibliothek Forschung Und Praxis 40 (2). Berlin: 
De Gruyter. 2016, pp. 186-199. DOI: 10.1515 /bfp-2016-0042. 

Ma, Feicheng, Yating Li, and Baitong Chen. Study of the Collaboration in the Field of the Chi- 
nese Humanities and Social Sciences. In: Scientometrics 100 (2). Berlin: Springer. 2014, 
pp. 439-458. DOI: 10.1007/s11192-014-1301-z. 


An Online Field Study on Scholarly Journal Annotations —— 247 


Marshall, Catherine C.. Annotation: From Paper Books to the Digital Library. In: Proceedings of 
the Second ACM International Conference on Digital Libraries. DL ’97. New York: ACM. 1997, 
pp. 131-140. DOI: 10.1145/263690.263806. 

Marshall, Catherine C. The Future of Annotation in a Digital (Paper) World. In: Susan Harum and 
Michael Twidale (Eds.), Successes & Failures of Digital Libraries: [papers presented at the 
1998 Clinic on Library Applications of Data Processing, March 22-24, 1998]. Champaign, 
IL: Graduate School of Library and Information Science, University of Illinois at Urbana- 
Champaign. 2000, pp. 97-117. URL: http://hdl.handle.net/2142/25539 (20.01.2020). 

Marshall, Catherine C. and A.J. Bernheim Brush. Exploring the Relationship Between Personal 
and Public Annotations. In: Proceedings of the 4th ACM/IEEE-CS Joint Conference on Digital 
Libraries JCDL’04. New York: ACM. 2004, pp. 349-357. DOI: 10.1145/996350.996432. 

McCarty, Willard. Making and Studying Notes. Towards a Cognitive Ecology of Annotation. In: Julia 
Nantke and Frederik Schlupkothen (Eds.), Annotations in Scholarly Editions and Research. 
Functions, Differentiation, Systematization. Berlin: De Gruyter. 2020, pp. 271-297. 

Müller-Birn, Claudia, Tina Klüwer, André Breitenfeld, Alexa Schlegel, and Lukas Benedix. Neo- 
nion: Combining Human and Machine Intelligence. In: Proceedings of the 18th ACM Confer- 
ence Companion on Computer Supported Cooperative Work & Social Computing CSCW'15. 
New York, NY: ACM. 2015, pp. 223-226. DOI: 10.1145/2685553.2699012. 

Müller-Birn, Claudia, Alexa Schlegel, and Christian Pentzold. Softwarenutzung in der geisteswis- 
senschaftlichen Forschungspraxis. In: Wolfgang Prinz, Jan Borchers, and Matthias Jarke 
(Eds.), Mensch und Computer 2016. Aachen: Gesellschaft für Informatik e. V. 2016. DOI: 
10.18420/muc2016-mci-0114. 

O'hara, Kenton P., Alex Taylor, William Newman, and Abigail J. Sellen. Understanding the 
Materiality of Writing from Multiple Sources. In: International Journal of Human-Computer 
Studies 56 (3). Amsterdam: Elsevier. 2002, pp. 269-305. DOI: 10.1006/ijhc.2001.0525. 

Ollé, Candela and Ángel Borrego. A Qualitative Study of the Impact of Electronic Journals on 
Scholarly Information Behavior. In: Library & Information Science Research 32 (3). Amster- 
dam: Elsevier. 2010, pp. 221-228. DOI: 10.1016/j.lisr.2010.02.002. 

Ossenblok, Truyken L. B., Frederik T. Verleysen, and Tim C. E. Engels. Coauthorship of Journal 
Articles and Book Chapters in the Social Sciences and Humanities (2000-2010). In: Journal 
of the Association for Information Science and Technology 65 (5). Hoboken, NJ: Wiley. 2014, 
pp. 882-897. DOI: 10.1002/asi.23015. 

Ovsiannikov, Ilia A., Michael A. Arbib, and Thomas H. McNeill. Annotation Technology. In: 
International Journal of Human-Computer Studies 50 (4). Amsterdam: Elsevier. 1999, 
pp. 329-362. DOI: 10.1006/ijhc.1999.0247. 

Palmer, Carole L., Lauren C. Teffeau, and Carrie M. Pirmann. Scholarly Information Practices in 
the Online Environment: Themes from the Literature and Implications for Library Service 
Development. Dublin, OH: OCLC Research. 2009. URL: https://www.oclc.org/content/dam/ 
research/publications/library/2009/2009-02.pdf (20.01.2020). 

Pape, Sebastian, Christof Schóch, and Lutz Wegner. TEICHI and the Tools Paradox. In: Journal of 
the Text Encoding Initiative 2. TEI consortium. 2012. DOI: 10.4000 /jtei.432. 

Perkel, Jeffrey M. Annotating the Scholarly Web. In: Nature 528 (3). Berlin: Springer. 2015, 
pp. 153-154. DOI: 10.1038/528153a. 

Piro, Fredrik Niclas, Dag W. Aksnes, and Kristoffer Rørstad. A Macro Analysis of Productivity 
Differences across Fields: Challenges in the Measurement of Scientific Publishing. In: 
Journal of the American Society for Information Science and Technology 64 (2). Hoboken, 
NJ: Wiley. 2013, pp. 307-320. DOI: 10.1002/asi.22746. 


248 — Felix Lange 


Qayyum, Muhammad Asim. Capturing the Online Academic Reading Process. In: Information 
Processing & Management 44 (2). Amsterdam: Elsevier. 2008, pp. 581-595. DOI: 10.1016/j. 
ipm.2007.05.005. 

Shaikh-Lesko, Rina. Web Annotation Tool Hypothesis Hits a Milestone. In: Nature 569 (May). 
Berlin: Springer. 2019, pp. 295-295. DOI: 10.1038/d41586-019-01427-9. 

Staines, Heather. Making Peer Review More Transparent with Open Annotation. Hypothesis. 2019. 
URL: https://web.hypothes.is/blog/transparent-peer-review/ (20.01.2020). 

Stiller, Juliane, Klaus Thoden, Oona Leganovic, Christian Heise, Mareike Höckendorff, and Timo 
Gnadt. Nutzungsverhalten in den Digital Humanities (R 1.2.1/ M 7.6). [Research Report] 
DARIAH-DE. 2015. URL: https://wiki.de.dariah.eu/download/attachments/14651583/ 
Report1.2.1-final3.pdf?version=1&modificationDate=1426154224304&api=v2 (20.01.2020). 

Stone, Sue. CRUS Humanities Research Programme. In: Humanities Information Research: 
Proceedings of a Seminar. Sheffield: University of Sheffield. 1980, pp. 15-26. 

Stone, Sue. Humanities Scholars: Information Needs and Uses. In: Journal of Documentation 38 
(4). Bingley: MCB UP Ltd. 1982, pp. 292-313. DOI: 10.1108/eb026734. 

Unsworth, John. Scholarly Primitives: What Methods Do Humanities Researchers Have in 
Common, and How Might Our Tools Reflect This? London. 2000. URL: http://www.iath. 
virginia.edu/-jmu2m/Kings.5-00/primitives.html (20.01.2020). 

Unsworth, John and Charlotte Tupman. Interview with John Unsworth, Carried out and Tran- 
scribed by Charlotte Tupman. In: Collaborative Research in the Digital Humanitár. London: 
Routledge. 2016, pp. 231-240. 

Uva, Peter. Information-Gathering Habits of Academic Historians: Reports ofthe Pilot Study. 
[Research Report] Library of the Upstate Medical Center. Washington, DC: ERIC. 1977. 
URL: https://files.eric.ed.gov/fulltext/ED142483.pdf (20.01.2020). 

Walkowski, Niels-Oliver. The Landscape of Digital Annotation and Its Meaning. In: Conference 
on Language Technologies & Digital Humanities, Ljubljana. 2016a, pp. 6-11. URL: http:// 
www.sdjt.si/wp/wp-content/uploads/2016/09/JTDH-2016_Walkowski_The-Landscape-of- 
Digital-Annotation.pdf (20.01.2020). 

Walkowski, Niels-Oliver. Digitale Annotationen: ‘Best Practices’ Und Potentiale (R 6.2.1) Part 
|. [Research Report]. DARIAH-DE. 2016b. URL: https://wiki.de.dariah.eu/download/ 
attachments/14651583/r621_1.pdf?version=2&modificationDate=1552902373909&api=v2 
(20.01.2020). 

Wheary, Jennifer, Lee Wild, Bernard Schutz, and Christina Weyher. Living Review in Relativity: 
Thinking and Developing Electronically. In: Journal of Electronic Publishing 4 (2). Ann Arbor, 
MI: Michigan Publishing. 1998. DOI: 10.3998/3336451.0004.205. 


Christian Lück 
Beispiele annotieren 


Zwischen interpretativer Arbeit am philosophischen Text, 
Formalisierung und maschinellen Verfahren 


Abstract: This article deals with annotations of examples in texts belonging to 
philosophical aesthetics. The purpose of the annotations is to create a broader 
data set with which discursive trends can be displayed on a timeline. There are 
two different ideas regarding annotations. The first one sees annotations in close 
connection with the interpretative work on the philosophical text and lets annotat- 
ing become an elaborate exercise in close reading. The other detaches itself from 
embedding examples in the conceptual and argumentative context of a text on 
annotation, and instead focuses on developing a linguistic model of the example. 
With this shift, annotation tasks become representable in algorithms. 


Keywords: Automation, Modelling, Form, Segmentation, Literature, Philosophy 


1 Beispiele 


Die jüngere Forschung hat wiederholt die Rolle von Beispielen für die Formierung 
von Wissen unterstrichen (Ruchatz et al. 2007; Schaub 2010; Lück et al. 2013a; Güs- 
ken et al. 2018-). Bislang jedoch ist die Untersuchung von Beispielen stets selbst 
in einem exemplarischen Modus geblieben: Einzelne Beispiele, von denen mehr 
oder weniger plausibel ist, dass sie zentral für eine diskursive Formation sind, sind 
detailliert und mit hermeneutischen Methoden oder in dekonstruktionistischen 
Lektüren kommentiert worden. Für eine Forschung, die auf einer größeren Menge 
von Beispielen basiert, existiert schlicht keine strukturierte Datengrundlage. 

Das DFG-Projekt Das Beispiel im Wissen der Asthetik (1750—1850) (FernUni- 
versitat in Hagen, Leitung Michael Niehaus) hat sich einerseits das Ziel gesetzt, 
die Problemgeschichte der Ásthetik von ihren Beispielen her neu zu beleuchten. 
Wie das funktionieren kann, hat Derrida für Immanuel Kants Kritik der Urteils- 
kraft vorgemacht, der im Zuge einer die Beispiele würdigenden Analyse von Kants 
Begriffssystem konstatiert: „Eine Paradigmatik der Blume lenkt die dritte Kritik“ 
(Derrida 1992, 107). Neben ins Detail von philosophischen Systemen und Argumen- 
tationen gehenden Analysen will das Hagener Projekt jedoch andererseits auch die 
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diskursive Praxis des Beispielgebens archivieren. Ein Ziel ist die Gewinnung eines 
Datensatzes aus einem Korpus von Schriften zur philosophischen Asthetik. Ein 
solcher hátte einen erheblichen Mehrwert für die diskurstheoretische Erforschung 
des Beispiels im Sinne einer Archäologie des Wissens nach Foucault (1997): Er 
würde die Forschung in die Lage versetzen, i) ein Verzeichnis der Beispiele zu 
präsentieren, ii) historische Langsschnitte zu tätigen, die Einblick in die Häufigkeit 
einzelner Beispiele im Untersuchungszeitraum gewáhren - ihre Emergenz, ihren 
Boom, ihr Verschwinden - und so iii) gegebenenfalls Trends im philosophischen 
Diskurs mit anderen Diskursen zu korrelieren, z. B. mit der Reiseliteratur des 18., 
mit dem Kolonialdiskurs des 19. Jahrhunderts oder mit der Botanik und Biologie. 

Für das Erarbeiten eines Beispieldatensatzes gibt es verschiedene Ansátze. 
Bereits vor einigen Jahren wurde begonnen, Beispiele durch ein Webformular in 
einer Datenbank aufzunehmen.! Neben der Textstelle, in der das Beispiel gegeben 
wird, und Metadaten über das Schriftstück ist dabei Folgendes erfasst worden: das 
Beispiel selbst, also das eher Konkrete, was als Beispiel angeführt wird; dasjenige, 
für das das Beispiel angeführt wird, also das eher allgemeine Konzept, das mit 
dem Beispiel illustriert, belegt oder verstándlich gemacht wird; und ein optional 
vorhandener Marker auf der Textoberflache wie ,,z. B.“. Allerdings ist klar, dass 
die Beispiele in solch einer Datenbank weitgehend ohne Kontext erfasst werden: 
weitgehend ohne den begrifflich-argumentativen Kontext und auch ohne den 
Kontext anderer Beispiele. Der Vorteil, dass man auf diese Weise hinsichtlich der 
Textauswahl vom Urheberrecht weitgehend uneingeschránkt bleibt, kann den 
Nachteil nicht aufwiegen, dass man am Ende mit bloßen Kollektaneen dasteht. 
Die Exzerpte werden kaum als Datensatz dienen, auf dessen Grundlage durch 
maschinelles Lernen weitere Beispiele in einem Korpus von Schriften gefunden 
werden kónnen. 

Aus diesen Gründen setzt das DFG-Projekt Das Beispiel im Wissen der Asthetik 
auf die Annotation von Beispielen in Volltexten. Allerdings gibt es sehr unter- 
schiedliche Arten und Weisen, Beispiele zu annotieren: Annotationen, die eher 
die propositionale Struktur, in der ein Beispiel gegeben wird, erfassen wollen, und 
Annotationen, die eher im Zusammenhang mit linguistischen Kategorien und mit 
in Algorithmen darstellbaren Verfahren stehen. Im Folgenden sollen zunáchst die 
Schwierigkeiten beschrieben werden, die bei der ersten Art auftreten, um dann 
das Potential von Annotationen der zweiten Art zu untersuchen. 


1 http://beispiel.germanistik.rub.de (07.09.2019) 
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2 Beispiele und Argumentation annotieren 


In einem literaturwissenschaftlichen Projekt mit einem philosophischen Gegen- 
stand wie der Ästhetik liegt es zunächst näher, die begrifflich-propositionale Struk- 
tur, in der Beispiele angefiihrt werden, in den Blick zu nehmen und zu annotieren. 
Die Schwerkraft, welche die Idee der Annotationen in diese Richtung zieht, hat 
ihren Grund in theoretischen Auffassungen über das Beispiel. Sie gehen zurück 
auf einen álteren philosophischen Diskurs, werden teilweise durch Definitionen 
im untersuchten Korpus wiederaufgenommen und bestátigt und werden in der 
aktuellen Forschung einer Revision unterzogen. So steht das Beispiel klassischer- 
weise im Zusammenhang mit der Beziehung zwischen dem Allgemeinen und dem 
Besonderen; es kann einen allgemeinen Satz lediglich widerlegen, aber nicht be- 
weisen, hat jedoch gleichzeitig einen epistemologischen Wert bei der Induktion 
(Aristoteles, Anal. pr. II 24; Willer et al. 2007). Dieser epistemologischen Dimension 
des Beispiels muss man sicher noch andere Dimensionen an die Seite stellen (Lück 
et al. 2013b): etwa eine rhetorische Dimension, die auf den Beitrag zielt, den Bei- 
spiele im Hinblick darauf leisten, dass ein Text zu seinem Ziel kommt und seine 
Leser*innen überzeugt; oder eine konzeptuelle Dimension, nach der Beispiele 
verwendete Begriffe klar machen (was nicht das Gleiche ist wie widerlegen oder 
belegen); oder eine normative Dimension, denn Beispiele vermitteln — gerade 
in der Asthetik — auch Konzepte, wie etwas sein sollte oder was man angesichts 
eines Gegenstandes der Natur oder Kunst empfinden sollte. — Im Hinblick auf die 
Annotationen bewirken solche theoretischen Überlegungen erst einmal, dass die 
Idee, semantische und argumentative Strukturen auszuzeichnen, umso notwendi- 
ger erscheint, sich aber gleichzeitig ein sehr komplexes Annotationsunterfangen 
ankündigt. Die Annotationen sollen dann Beispiele so erfassen, dass sie dem mit 
Theorie armierten Blick móglichst gerecht werden, wozu die formalisierte Beschrei- 
bung eines Phänomens - die eine Annotation ihrer eigenen Idee nach schließlich 
ist - eine hohe Expressivitát haben muss.? 


2 Expressivitat ist ein Begriff aus der Theorie logischer Systeme und bezeichnet ein Maß dafür, 
welche Ideen in einem logischen System, z. B. der Prádikatenlogik erste Stufe, dargestellt werden 
kónnen; vgl. Beierle und Kern-Isberner (2014). Der Begriff ist auf die Beschreibungen und den 
Vergleich von Programmiersprachen übertragen worden und meint dort eher den praktischen 
Aspekt der Kürze, Klarheit und Lesbarkeit einer Darstellung; vgl. z. B. Abelson und Sussman (2001, 
308 u. ó.). Übertragen auf Annotationen meint der Begriff sowohl die Darstellbarkeit von Ideen 
in einem formalisierten System als auch den praktischen Aspekt der Klarheit und Lesbarkeit 
der Darstellung. Die Darstellbarkeit von Ideen wird direkt beeinflusst durch (syntaktische) Arten 
von Ausdrucksmitteln: Klassen für Textpassagen, Attribute für sie, Relationen zwischen ihnen, 
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Eines der technischen Mittel mit hoher Expressivität für die Formulierung 
von Vokabularen ist die Web Ontology Language (OWL). Das Vokabular zur An- 
notation von Beispielen ist in der OWL realisiert (Lück 2018): Zur Auszeichnung 
von Textpassagen dienen OWL-Klassen (owl:Class), von denen es im wesentli- 
chen vier gibt: Beispiel, Marker, Konzept und Kontext. Um Relationen zwischen 
ausgezeichneten Textpassagen zu beschreiben, stehen OWL-Objekteigenschaften 
(owl:ObjectProperty) zur Verfügung. So kann in den Annotationen über einen 
Marker ausgesagt werden, welches Beispiel er markiert, oder über ein Beispiel, für 
welches generellere Konzept es als Beispiel angeführt wird, oder über ein Beispiel, 
in welchem begrifflichen, argumentativen oder theoretischen Kontext es angeführt 
wird. Solche der Prádikatenlogik áhnliche Aussagen werden immer als Relation 
zwischen zwei ausgezeichneten Textpassagen annotiert, wobei die Objekteigen- 
schaft die Art der Relation, die zwischen den beiden Passagen besteht, beschreibt, 
d. h. das Prádikat eines RDF-Tripels darstellt. Die OWL-Objekteigenschaften des 
Vokabulars sind in einem Vererbungsbaum so organisiert, dass z. B. alle Eigen- 
schaften, mit denen eine Relation zwischen einem Beispiel und einem Konzept 
beschrieben werden kann, von dem Grund-Prádikat istBeispielFuer abgeleitet 
sind. Dieses Prádikat implizieren per Vererbung (owl:subPropertyOf) insgesamt 24 
weitere Prádikate zur Beschreibung der Relation zwischen Beispiel und Konzept, 
welche wiederum in Teilbáumen organisiert sind. Mit diesem differenzierten Voka- 
bular an Prádikaten lassen sich die oben skizzierten Dimensionen des Beispiels 
(epistemologisch, rhetorisch, konzeptuell, normativ) einerseits auf formalisierte 
Art und Weise beschreiben und andererseits bleibt dabei die elementare Relation 
zwischen einem Beispiel und einem generellen Konzept, für das es angeführt wird, 
aufgrund der Ableitung vom Grund-Prádikat istBeispielFuer stets impliziert. Das 
ist im Hinblick auf Abfragen auf dem spáteren Datensatz von besonderem Interesse. 
Darüber hinaus definiert das Vokabular OWL-Dateneigenschaften (owl:Datatype- 
Property), mit welchen zu einer Textpassage freie Literale angegeben werden 
kónnen. 

Als Annotationswerkzeug kommt ein im Jahr 2015 selbst entwickeltes Tool 
zum Einsatz, das mit dem in OWL definierten Vokabular umgehen kann. Es basiert 
auf GNU Emacs, speichert die Annotationen als Stand-Off-Markup und ermóglicht 
diskontinuierliches Markup.? 


deren Stelligkeit, die Móglichkeit, Annotationen zum Gegenstand von Annotationen zu machen 
(Reifikation). 

3 http://github.com/lueck/standoff-mode (07.09.2019). Zur Zeit der Entwicklung von standoff- 
mode standen noch keine Werkzeuge zur Verfügung, die diskontinuierliches Markup zusam- 
men mit Relationen zwischen ausgezeichneten Textpassagen und eine Annotation in XML- bzw. 
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Mit den der Prädikatenlogik ähnlichen Aussagen, die mit solch einem Vo- 
kabular darstellbar sind, kann man die semantisch-propositionale Struktur von 
Beispielen schon recht gut annotieren. Wie schnell diese komplex werden kann, 
sei an einer Stelle aus Kants dritter Kritik (Kant 1990, 77 f. [8 17]) demonstriert: 


Schönheit ist die Form der Zweckmäßigkeit eines Gegenstandes, sofern sie ohne Vorstellung 
eines Zweckes an ihm wahrgenommen wird. [Fußnote:] Man könnte wider diese Erklärung 
als Instanz anführen, daß es Dinge gibt, an denen man eine zweckmäßige Form sieht, ohne 
an ihnen einen Zweck zu erkennen, z.B. die öfter aus alten Grabhügeln gezogenen, mit 
einem Loche als zu einem Hefte, versehenen steinernen Geráte; die, ob sie zwar in ihrer 
Gestalt deutlich eine Zweckmäßigkeit verraten, für die man den Zweck nicht kennt, darum 
gleichwohl nicht für schón erklárt werden. Allein, daf$ man sie für ein Kunstwerk ansieht, 
ist schon genug, um gestehen zu müssen, daf$ man ihre Figur auf irgend eine Absicht und 
einen bestimmten Zweck bezieht. Daher auch gar kein unmittelbares Wohlgefallen an ihrer 
Anschauung. Eine Blume hingegen, z. B. eine Tulpe, wird für schón gehalten, weil eine 
gewisse Zweckmäßigkeit, die so, wie wir sie beurteilen, auf gar keinen Zweck bezogen wird, 
in ihrer Wahrnehmung angetroffen wird. 


Man sieht sogleich, dass das Annotieren von Beispielen keine leichte Aufgabe ist. 
Es gibt in der zitierten Passage zwei Beispiel-Marker ,,z. B.“ an der Text-Oberflache, 
aber das ist auch schon alles, was klar ist. Es ist ein erhebliches Maß an hermeneu- 
tischem Aufwand erforderlich, um eine solche Passage zu annotieren; man muss 
also Kants Argumentation und Begriffsystem verstehen, um überhaupt sinnvoll 
etwas zu annotieren. So ist es zwar klar, dass jeweils hinter den Beispielmarkern 
„Z. B.“ das Beispiel folgt, aber bereits die Bestimmung seines Umfanges berei- 
tet Schwierigkeiten. Im zweiten Fall ist das Beispiel „ein Tulpe“, im ersten Fall 
„die öfter aus alten Grabhügeln gezogenen, mit einem Loche als zu einem Hefte, 
versehenen steinernen Geráte; die, ob sie zwar in ihrer Gestalt deutlich eine Zweck- 
mäßigkeit verraten, für die man den Zweck nicht kennt, darum gleichwohl nicht für 
schön erklärt werden“. Die lange Nominalphrase „die öfter aus alten Grabhügeln 
gezogenen, mit einem Loche als zu einem Hefte, versehenen steinernen Geräte“ 
gehört ohne Zweifel ganz zum Beispiel, denn kein Teil dieser Phrase würden der 
intensionalen Bestimmung des Beispiels gerecht: Es geht nicht um ‚steinerne Ge- 


TEI-Dokumenten ermöglicht haben. Das BRAT Rapid Annotation Tool, http://brat.nlplab.org 
(07.09.2019), kam den Anforderungen am nächsten, verarbeitet aber nur schlichte Text-Dateien. 
Das Datenmodell von CATMA, http://catma.de (07.09.2019), hat Relationen noch nicht zugelassen 
und WebAnno (Eckart de Castilho et al. 2016) war noch in der Entwicklungsphase, genau wie Funk- 
tionselemente von TextGrid; http://textgrid.de (07.09.2019). Zur Internalisierung des mit standoff- 
mode produzierten externen Markup in ein TEI-Dokument kommt ein in Haskell geschriebenes Pro- 
gramm zur Anwendung: http://github.com/lueck/standoff-tools (07.09.2019). Das Vokabular zur 
Beschreibung von Beispielen ist online unter http://github.com/lueck/standoff-mode/arb/arb.owl 
(07.09.2019). 
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rate‘, sondern um diejenigen ,steinernen Geráte', die man ,in alten Grabhügeln' 
findet und die ,mit einem Loche als zu einem Hefte versehen sind‘. Ohne diese 
Bestimmungen wäre von einer viel größeren Klasse von Gegenständen die Rede. 
Allerdings ist es móglich, die Nominalkonstruktion in Relativsátze umzuformen, 
und in der Folge entsteht die Frage, ob der mit einem Semikolon abgetrennte Re- 
lativsatz nicht auch zum Beispiel zu rechnen wáre. Andererseits wird in ihm das 
Besondere des Beispiels mit dem Allgemeinen des Verhältnisses zweier Begriffe, 
um die es in diesem Abschnitt geht, verwoben: Zweckmäßigkeit und Schönheit. 
Das wäre ein Argument, diesen Relativsatz nicht mehr zum Beispiel zu zählen. Im 
Gegensatz zu den Relativsátzen, die durch Auflósung der vorhergehenden Nomi- 
nalkonstruktion gewonnen werden, handelt es sich um einen nicht-restriktiven 
Relativsatz. Es gibt gute Gründe für die Regel, dass nicht-restriktive Relativsátze 
nicht mehr zum Beispiel gehóren sollen. Werden sie dennoch als Beispiel anno- 
tiert, dann müsste konsequenterweise der nächsten Satz ebenfalls zum Beispiel 
hinzugerechnet werden, da auch dort von den Grabbeigaben die Rede ist. 

Im zweiten Fall von „eine Tulpe“ ist die Lage nur auf den ersten Blick einfacher. 
Auf den zweiten Blick bemerkt man, dass bereits „eine Blume“ ein Beispiel ist, das 
durch „z.B. eine Tulpe* noch einmal weiter konkretisiert wird. Hier bilden also 
zwei Beispiele eine Art Kaskade der Konkretisierung. Und man bemerkt weiter, 
dass es in der gesamten Fußnote (die bis zum Ende des Zitats reicht) um Beispiele 
geht, denn im ersten Satz der Fußnote heißt es, dass man gegen den allgemeinen 
Obersatz ,,als Instanz" existierende Dinge mit bestimmten Eigenschaften anführen 
könnte. Eine Instanz gegen etwas anzuführen, ist eine Beispielpraxis, nämlich 
die des Gegenbeispiels, also des Widerlegens einer allgemeinen Aussage mittels 
Beispielen. Ist dann aber „Dinge [...], an denen man eine zweckmäßige Form sieht, 
ohne an ihnen einen Zweck zu erkennen" bereits ein Gegenbeispiel in seiner allge- 
meinsten, abstraktesten Form, die dann in den mit „z. B.“ markierten Beispielen 
konkretisiert wird? Oder handelt es sich um einen Begriff, welcher in den dann 
folgenden Beispielen konkretisiert wird? 

Um die Relationen zwischen den Beispielen und dem allgemeinen Obersatz 
annotieren zu kónnen, muss man noch mehr von der Kantischen Philosophie 
verstehen. Es geht hier um die Relation zwischen dem Geschmacksurteil und der 
Wahrnehmung von Zwecken.^ Und in der Fußnote wird der Einwand erhoben (und 
nach Prüfung verworfen), dass am Schónen Zwecke nicht nicht wahrgenommen, 
sondern nicht erkannt würden. — Das ist ein großer Unterschied in der Intentio- 
nalitát, mit der man sich auf einen Gegenstand bezieht, und somit im Modus der 


^ Zentral für das Begriffssystem und auch für die beiden hier besprochenen Beispiele ist die 
Unterscheidung zwischen freier und anhángender Schónheit. Vgl. dazu Güsken (2018). 
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Wahrnehmung. - Das erste Beispiel soll als Beleg für diese Gegenthese herhalten 
und wird dann im Satz ,,Allein ...“ zurückgewiesen. Das Beispiel der Blume Tulpe 
ist nicht ebenfalls ein Gegenbeispiel, sondern ein Beispiel, das gegen die Gegen- 
these gerichtet ist, einen Unterschied (in der Intentionalität) zu dem vorherigen 
Beispiel markiert und den allgemeinen Obersatz unterstützt. Es soll noch einmal 
klar machen, wie die Begriffe gemeint sind. Das Vokabular zur Annotation nennt 
das die konzeptuelle Dimension eines Beispiels (vgl. auch Lück et al. 2013b). Hier 
geht es darum, dass die Blume Tulpe klar machen soll, wie es gemeint ist, dass 
sich das Urteil, dass etwas schón sei, nicht auf den Zweck dieses Gegenstandes 
bezieht. — Derridas Verdikt, dass eine „Paradigmatik der Blume“ Kants Analytik 
des Schónen lenke, erweist sich hier als sehr instruktiv. 

Solche Annotationen der propositionalen Struktur, in der Beispiele gegeben 
werden, werden komplex. Sie zu erstellen gleicht einem close reading mit einem 
formalisierten Beschreibungsvokabular. Mit der Komplexitát steigt noch einmal 
der zeitliche Aufwand, den manuelle Annotationen ohnehin schon erfordern. Bei 
derartigen Investitionen stellt sich die Frage, was man überhaupt mit solchen 
Annotationen hinterher anfangen will — und kann. Weil man kaum ein ganzes 
Korpus ásthetischer Schriften wird annotieren kónnen, ist die Verwendung als 
Datensatz, an dem historische Langsschnitte getátigt werden kónnen, nicht oder 
nur sehr eingeschränkt gegeben. Die Abfragemóglichkeiten, die aus einer Annota- 
tion entstehen, sind aber sicher ein wichtiger Grund, den Aufwand zu betreiben. 
Wenn dies dann jedoch nur in einem ganz eingeschránkten Umfang realisiert wird, 
bleiben die Investitionen zweifelhaft. 

Die zweite wichtige Verwendung wáre die als Datensatz für maschinelles Ler- 
nen, aus dem mittels Regression die Parameter eines Algorithmus gewonnen wer- 
den. Der Algorithmus wäre dann anschließend in der Lage, selbstständig weitere 
Beispiele zu identifizieren. Das ist zwar immer eine Perspektive, die beim Annotie- 
ren eine Rolle spielt und wegen der man sich um mehrere parallele Annotationen 
eines Werks und ihre Deckungsgleichheit bemüht.? Allerdings zeigt die Projekter- 
fahrung, dass bei Annotationen, die so komplex sind und in die so viel Verstándnis 
des Begriffssystems einfließen muss, Deckungsgleichheit kaum herzustellen ist. 
Das betrifft nicht nur zwei unterschiedliche Annotator*innen, sondern auch die 
Annotationen ein und derselben Person mit einer zeitlichen Differenz von einer 
Woche, einem Monat oder einem Jahr. Möglicherweise ist diese Erfahrung jedoch 
nicht allein durch den komplexen Gegenstand bedingt, sondern hat eine tiefere Ur- 


5 Vgl. den Beitrag von Reiter et al. (2020) im vorliegenden Band. 
6 Über ähnliche Erfahrungen mit eigenen Annotationen berichtet auch Willard McCarty in seinem 
Beitrag im vorliegenden Band (McCarty 2020). 
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sache in der hohen Expressivitat der formalen Sprache (hier OWL), mit welcher die 
Annotationen erstellt werden: Für formale Sprachen konnte gezeigt werden, dass 
mit zunehmender Expressivitát Entscheidungsprobleme schwieriger zu beantwor- 
ten sind (Okhotin 2005, bes. 299 ff.). Für menschliche Interpreten sind Aussagen 
mit expressiven formalen Sprachen entsprechend schwierig zu lesen. 

Die geringe Deckungsgleichheit ist aber nicht der einzige Punkt, der die Taug- 
lichkeit der Annotationen für machine learning in Frage stellt. Es ist auch kaum 
zu erwarten, dass die überaus komplexen Strukturen, die man auf diese Art und 
Weise annotiert, Muster enthalten, die an anderen Stellen wiedergefunden werden 
kónnen und tatsáchlich Beispiele sind. 

Dies und die Erfahrung, wie schwer übereinstimmende Annotationen zu er- 
reichen sind, gibt zu bedenken, ob Annotationen überhaupt Daten sind. Reicht 
ihre formale Homogenitát, die sie aufgrund der Verwendung digitaler Tools ha- 
ben, schon aus, um ihnen diesen Status zu verleihen? Vielleicht sollte man An- 
notationen so handhaben, wie Experimentalsysteme in anderen Wissenschaften 
gehandhabt werden, und die Frage ,Sind Annotationen Daten?' analog zur Frage, 
ob ein experimenteller Aufbau, sobald er überhaupt irgendeinen Output liefert, 
von Anfang an und jederzeit schon Daten produziert. Es ist doch in anderen Wis- 
senschaften eben nicht so: Rheinberger (2001) hat den Begriff des Experimental- 
systems eingeführt, um zu beschreiben, wie lange es dauert und welche in den 
Ergebnissen meist ausgeblendeten Abwege länger verfolgt werden und welche 
kaum jemals beschriebene Praxis in einem wissenschaftlichen Labor in den Expe- 
rimentalaufbau einfließt und welches Begehren das Laborhandeln trägt, bis ein 
Experiment endlich Daten produziert, die etwas zu einer wissenschaftlich rele- 
vanten Frage beitragen. Damit ist nicht zuletzt der Begriff der Daten als schlicht 
Gegebenes infrage gestellt, denn an Stelle des Gegebenseins rückt mit solch ei- 
ner Beschreibung eine Labor-Praxis der Zurichtung in den Blick. Deswegen ist 
es womóglich verfrüht, bereits bei der übereinstimmenden Auszeichnung durch 
zwei oder mehrere Annotator*innen von Daten zu sprechen. Ob der Experimen- 
talaufbau funktioniert, entscheidet sich ja erst dann, wenn die Annotationen mit 
einem Algorithmus zusammentreffen. Das soll den Wert von Annotationen nicht in 
Abrede stellen. Ohne Experimentalsysteme gäbe es schließlich keine Daten. Aller- 
dings scheint als Beschreibung des gegenwártigen Standes von auf Annotationen 
bauenden Projekten in den literaturwissenschaftlichen Digital Humanities der 
Begriff der Daten oft nicht passend: Es handelt sich doch eher um Laborarbeit an 
Experimentalsystemen in einem frühen Stadium. 
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3 Re-Modellierung: Linguistik des Beispiels 


Der Mehrwert eines größeren Datensatzes ist, wie eingangs skizziert, z.B. die 
Móglichkeit historischer Langsschnitte. Für solche ist es gar nicht so interessant, 
in welcher propositionalen Struktur ein Beispiel angeführt wird. Wichtiger ist die 
Verwendung gleicher Beispiele, also gleicher Wórter. Ein historischer Lángsschnitt 
wird ja realisiert durch eine Abbildung der Háufigkeit von Beispielen (Wórtern oder 
Wortgruppen) auf einer Zeitleiste. 

Das eróffnet die Perspektive für eine Re-Modellierung und drastische Verein- 
fachung. Wenn einzelne Wórter oder Wortgruppen, die den zentralen Teil eines 
Beispiels ausmachen, in den Blick genommen werden sollen, dann kann das 
Annotations- bzw. Beschreibungsvokabular stark vereinfacht werden. Allerdings 
muss auch ein neuer Term in das Vokabular eingeführt werden, nämlich der Kopf 
eines Beispiels. Wáhrend die Nominalphrase ,,ein Tulpe* das Beispiel ist, ist das 
Nomen „Tulpe“ der Kopf dieses Beispiels. Im ersten Beispiel des langen Kant-Zitats 
wird jedoch die Schwierigkeit deutlich, dass es oft nicht ganz leicht ist, den Kopf 
zu bestimmen: „Geräte“, „Hefte“, „Loche“ oder „Grabhügeln“? Wenn der Kopf eine 
ganze Nominalphrase sein darf, dann kónnte man die ganze Nominalkonstruktion 
„die öfter aus alten Grabhügeln gezogenen, mit einem Loche als zu einem Hefte, ver- 
sehenen steinernen Geräte“ als Kopf ansehen. Aber dies zeigt deutlich die sogleich 
eintretende Komplexitát, wenn als Kopf mehr als ein Unigram (N-Gram mit N-1) 
zugelassen ist: Aufgrund der Produktionsregeln der Chomsky-Grammatik werden 
die Kópfe dann potentiell unendlich lang bzw. komplex. Deswegen soll zunáchst 
versucht werden, bei der Re-Modellierung mit Unigram-Kópfen auszukommen. 
Sollte sich herausstellen, dass dies nicht ausreicht, dann wáre ausgehend von 
einem Unigram die größte Nominalphrase, in der es steht, zu bestimmen. Dies 
allerdings setzt gute Resultate beim Parsen der Phrasenstruktur voraus, wovon 
bei historischen Texten des 18. und 19. Jahrhunderts nicht immer ausgegangen 
werden kann. 

Also sei der Kopf eines Beispiels definiert als dasjenige einzelne Token (Uni- 
gram), das für das Beispiel signifikant ist. Es sollte zu den Tokens gehóren, die 
mit dem oben beschriebenen Vokabular (das auf die propositionelle Struktur, in 
der Beispiele gegeben werden, zielt) als Beispiel annotiert worden wáre. Diese 
Definition mag zu vage und deshalb unbefriedigend erscheinen. Sie ist aber nur so 
unbefriedigend, wie es ebenfalls unbefriedigend ist, im ersten zitierten Beispiel 
nur eines der Tokens „Geräte“, „Hefte“, „Loche“ und „Grabhügeln“ als Kopf zu 
annotieren. 
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4 Manuelle und maschinelle Annotationen 


Durch ein so reformuliertes und vereinfachtes Modell stellt sich auch die Frage 
nach Algorithmen neu, die die Annotation übernehmen kónnen. Verschiedene 
Ansátze lassen sich denken. So bekommt man beim Lesen von Schriften der philo- 
sophischen Asthetik schnell den Eindruck, dass ein ganzes Arsenal von Tieren und 
Pflanzen in ihnen als Beispiele vorkommt: Pferde, Affen, Lerchen, Fledermáuse, 
Nashórner usw. oder Rosen, Tulpen, Lilien usw. Es ist davon auszugehen, dass 
Tiere fast immer als Beispiele angeführt werden. Die Schriften sind schließlich 
keine botanischen Abhandlungen, sondern philosophische Schriften zur Frage 
der sinnlichen Wahrnehmung, die sich aus der Alltagswelt und den Schriften ihrer 
Zeit an Beispielen bedienen. Aber man wáre ein Esel, wenn man sagen würde, das 
Tiere immer Beispiele sind, denn manchmal kommen Tiere auch in Wendungen 
uneigentlichen Sprechens vor. Man kónnte also eine Tier- oder Pflanzen-Ontologie 
verwenden, um Tier- und Pflanzennamen im Korpus zu suchen. Die Vollstándigkeit 
dieser Ontologien würde über die Genauigkeit (precision), der Gebrauch metapho- 
rischer Wendungen in den Texten über die Trefferquote (recall) entscheiden. Bei 
einem solchen Verfahren würde ein äußeres Wissen, die Ontologie, an den Text 
angelegt. 

Lassen sich auch Verfahren konstruieren, die das Beispielwissen der Texte 
selber erheben? Verfahren, die nicht mit einem vorgefertigten, geschlossenen 
Wissen lediglich eine bestimmte semantische Teilmenge (alle Tierbeispiele, alle 
Pflanzenbeispiele) identifizieren? Im folgenden soll ein zweistufiges Verfahren 
vorgestellt werden (vgl. jetzt auch Lück 2019). Es tritt nicht an, um alle Beispiele in 
einem Korpus zu identifizieren. Aber es soll móglichst viele mindestens einmal als 
Beispiel markierte Beispiele identifizieren. 

In der ersten Phase macht sich das Verfahren zu nutze, dass das Beispiel eine 
sprachliche Figur ist, die einen Marker an der Textoberfläche haben kann. Es ist 
eine der wenigen Figuren mit einer Standard-Abkürzung als Oberflachenmarker. 
Das lateinische „e. g.“, exempli gratia, wörtlich um eines Beispiels willen oder aus 
Gunst des Beispiels, ist in viele europäische Sprachen übersetzt worden;" im Deut- 
schen war im 18. Jahrhundert noch das „z.E.“, zum Exempel, verbreitet, bevor 
es durch ,z. B.* verdrángt worden ist. Die Standard-Abkürzung hat den schónen 
Effekt, dass es sicher ist, dass bei ihrem Auftauchen ein Beispiel gegeben wird. — 
Das ist zumindest in Schriften zur Asthetik so, denn in ihnen werden zwar Refle- 
xionen über Beispiele und auch über das Geben und den Gebrauch von Beispielen 


7 Cappelli (1999, 118) datiert die Entstehung der lateinische Abkürzung auf das 17. Jahrhundert 
und damit deutlich zu spat. 
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angestellt, aber keine metasprachlichen Reflexionen über die sprachliche Form 
von Beispielen, geschweige denn über die Verwendung dieses Markers. Das Auf- 
tauchen des Markers „z. B.“ kann als eindeutiger Indikator für das Vorhandensein 
eines Beispiels angenommen werden. Auch andere Marker wie ,,bspw.“ kónnen 
als eindeutig angesehen werden; andere hingegen nicht, so etwa „wie“, das nur 
gelegentlich ein Beispiel markiert, meist aber als Vergleichspartikel eingesetzt 
wird; Ähnliches gilt für „etwa“. Das Wort „Beispiel“ kommt auch in Reflexionen 
über die eigene oder eine fremde Beispielpraxis vor. 

Die eindeutige Markierung ausnutzend soll in der ersten Phase des Verfahrens 
der Kopf des Beispiels zu einem Marker identifiziert werden. Es soll der Einfachheit 
halber davon ausgegangen werden, dass der Kopf im selben Satz steht, wie der 
Marker. Das in dieser ersten Phase zu lósende Problem ist ein Auswahlproblem: Es 
stehen mehrere Tokens als Kandidaten für einen Kopf zur Auswahl; die Auswahl 
muss akzeptabel sein. 

In der zweiten Phase des Verfahrens sollen anhand der in der ersten Phase 
gefundenen Beispiel-Kópfe weitere, nicht markierte Beispiele identifiziert werden. 
Für jedes weitere Vorkommen derselben Tokens im Korpus ist also zu entscheiden, 
ob es sich um ein Beispiel handelt oder nicht. Das in dieser zweiten Phase zu 
lósende Problem ist also ein Entscheidungsproblem. 

Mit diesem Verfahren werden nicht alle Beispiele erkannt, sondern hóchstens 
diejenigen, die wenigstens einmal mit einem eindeutigen Marker an der Textober- 
fläche markiert sind. Es ist zu erwarten, dass mit steigender Größe des Korpus, mehr 
Beispiele und auch mehr voneinander verschiedene Beispiele gefunden werden, 
die absolute Anzahl an gefundenen Beispielen also steigt; aber es ist nicht davon 
auszugehen, dass der Quotient der gefundenen und der tatsáchlich vorhandenen 
Beispiele sich mit steigender Korpusgröße verbessert. 

Dass man sich von dem Ziel, alle Beispiele zu finden, verabschiedet, ist zwar 
ein gravierender Abstrich. Dafür verspricht aber das Experimentalsystem mit die- 
sem Verfahren eher Daten zu liefern als bei der Annotation der propositionalen 
Struktur, in der Beispiele gegeben werden. Denn nun kónnen für jede Phase des 
Verfahrens zwei sehr klare und einfache Annotationsaufgaben gestellt werden: 


Phase 1: Annotiere in jedem Satz, in dem ein eindeutiger Beispiel-Marker vor- 
kommt, den Kopf des Beispiels. 

Phase2: Annotiere zu jedem Vorkommen der Tokens, die zur Menge der Beispiel- 
Kópfe gehóren, ob es sich um ein Beispiel handelt oder nicht. 


Die Chance ist jetzt viel größer, dass die Annotationen der zwei Phasen zum Trai- 
nieren von jeweils einem Machine-Learning-Algorithmus geeignet sind. Für die 
zweite Phase kann das z. B. das Entscheidungsbaum-Lernen sein (Beierle und Kern- 
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Isberner 2014, 105-120), für die erste Phase ein Algorithmus wie der im Folgenden 
vorgestellte. In beiden Fallen ist es dann noch von entscheidender Bedeutung, 
geeignete Merkmale zu definieren und bereitzustellen, die für die Unterscheidung 
in Phase 1 der Kandidaten und in Phase 2 zwischen Ja und Nein relevant sind. 


4.1 Phase 1: Auswahl des Kopfes 


Wenn man Annotationen, Merkmale und Algorithmen gleich zusammen konzi- 
piert, lásst sich wáhrend des gesamten Prozesses der Modellierung abschátzen, 
wie groß die Erfolgsaussichten sind, also die Aussichten auf ein funktionierendes 
Experimentalsystem, in dem ein Algorithmus brauchbare Daten produziert. Wenn 
man hingegen weder von einem geeigneten Merkmalsraum noch von einem Algo- 
rithmus eine Vorstellung hat, dann bleibt die Brauchbarkeit der Annotationen ein 
Versprechen. 


4.1.1 Merkmalsraum 


In die Definition des Merkmalsraums werden Beobachtungen und Hypothesen ein- 
fließen, die man beim Annotieren machen bzw. aufstellen kann. Unserer Beobach- 
tung zufolge sind Beispiel-Kópfe meistens Nomen, seltener Vollverben, manchmal 
Adjektive, aber nie Hilfverben, Artikel, Prápositionen usw. Die Wortart gehórt also 
zum Merkmalsraum. 

Relevant ist auch, wie weit ein Token vom Marker entfernt ist: Ein näher am 
Marker stehendes Token ist háufiger ein akzeptabler Beispiel-Kopf als weiter weg 
stehende. Man kann die Distanz in Tokens, die zwischen dem Marker und ei- 
nem Kandidaten stehen, messen oder auch in dazwischen liegenden Kommata. 
Allerdings sieht man an Kants verschachtelten Sátzen und Nominalkonstruktio- 
nen, dass diese einfachen Distanzmaße auch trügerisch sein können und eine in 
Satzkonstituenten gemessene Distanz noch besser ware: In einer solchen ware ,,Ge- 
rate“ genauso weit vom Marker entfernt wie „Grabhügeln“. Die Verwendung eines 
solchen Maßes würde allerdings erneut gute Resultate beim Parsen der Phrasen- 
struktur voraussetzen, wovon bei historischen Texten des 18. und 19. Jahrhunderts 
nicht immer ausgegangen werden kann. 

Des Weiteren kann man beim Annotieren beobachten, dass der Marker dem 
Beispiel meist, aber nicht immer vorangeht. Die Richtung zum Marker gehórt also 
auch zum Merkmalsraum. 

Eine weitere Beobachtung ist, dass die Beispiel-Kópfe Wortformen (Tokens) 
sind, die eher selten im Text vorkommen. Auch die zugehórigen Zitierformen kom- 
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tcf vom DTA 


WebLicht 
- tokens 
- sentences 
- POS tags 
- lemmas 


Meta data 
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Abb. 1: Die digitale Architektur fiir das zweistufige Verfahren 


men eher selten vor. Diese Beobachtung kann man machen, wenn man nach 
Häufigkeit geordnete Frequenztabellen der Tokens eines Textes studiert. Die Bei- 
spielkópfe, die Nomen sind, kommen unter den Nomen mit geringer bis mittlerer 
Häufigkeit vor, aber nicht unter den häufigen Nomen. Die häufigsten Nomen in 
Kants dritter Kritik sind philosophische Begriffe: Natur (849 Mal), Begriff (746), 
Prinzip (485), Zweck (438), Vernunft (404). Anhand dieser häufigen Wörter werden 
Dokumente durch automatische Klassifikation vorgegebenen Kategorien (Themen- 
feldern) zugeordnet (Sebastiani 2002) oder durch Clustering gruppiert (Heyer et al. 
2006, 195—209). Die Tier- oder Pflanzen-Beispiele in Texten der philosophischen 
Asthetik führen nicht dazu, dass ein Text z. B. der Botanik zugeordnet wird oder 
mit Linnés oder Okens Werken in einem Cluster auftaucht. Ein linguistischer Grund 
dafür, dass Beispiele unter den Wórtern mit geringer bis mittlerer Frequenz auf- 
tauchen, kónnte in der Thema-Rhema-Gliederung eines Textes gesucht werden. 
(Bußmann 1990, 784-786) An dieser Stelle interessiert allerdings eher, dass die 
Frequenz ein relevantes Merkmal darstellt. 

Die Merkmale werden im pre-processing des Korpus generiert. Dafür kommt 
WebLicht® zum Einsatz (vgl. Abb. 1). Dieser Webservice segmentiert einen Text 
nach Satzen und Tokens, bestimmt zu jedem Token eine Zitierform (Lemma) und 
die Wortart (Part-of-Speech-tag, kurz PoS-tag). Die vorbereiteten Daten werden in 


8 https://weblicht.sfs.uni-tuebingen.de (07.09.2019) 
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einer relationalen Datenbank abgelegt, deren Herzstück eine Tabelle ist, in der 
jedes einzelne Token des Korpus in einer Zeile reprásentiert wird, wobei die Spalten 
dieser Zeile die durch das pre-processing gewonnenen Daten darstellen: die ID 
des Tokens, die ID des Satzes, das Lemma, das PoS-tag und dann noch die ID des 
Dokuments, mittels derer ein Token - und damit auch die Beispiele - auf Metadaten 
wie die Autor*in oder das Entstehungsjahr beziehbar wird. Merkmale aus dem 
Merkmalsraum, die noch nicht durch das pre-processing generiert worden sind, 
werden durch elementare Abfragen dieser Tabelle gewonnen, etwa die Frequenzen 
oder die Distanzen zum Marker. 


4.1.2 Eine Funktion zur Bestimmung des Kopfes 


Formal kann die Aufgabe in Phase 1 folgendermaßen beschrieben werden. Es ist 
eine Funktion k zu bestimmen, die den Merkmalsvektor v, € V eines jeden Tokens 
eines Satzes mit einem eindeutigen Beispielmarker auf das Interval der reellen 
Zahl zwischen 0 und 1 abbildet: k : V > [0,1], wobei V der Merkmalsraum sei. 
Dasjenige Token eines Satzes, für das k(v,) maximal ist, soll der Kopf sein. Das ist 
die Form, in der das Auswahlproblem, das sich in Phase 1 stellt, gelóst werden soll. 

In der einfachsten Gestalt könnte k die normierte Summe der gewichteten Merk- 
male sein bzw. die Summe von gewichteten Funktionen, die den Merkmalsvektor 
auswerten: 


k(u) =0 (X wie) (1) 


wobei w; die Gewichte und f; die Auswertfunktionen der Merkmale seien und 
o : R [0,1] eine Normierungsfunktion sei z.B. eine Schwanenhalsfunktion. Die 
Auswertfunktionen der Merkmale müssen normalisierte Werte liefern, also gelte 
fi: V [0,1]. 

Will man nicht nur die einzelnen Merkmale auswerten, sondern Merkmals- 
kombinationen, dann würde man k als Summe solcher Summen definieren: 


k(u) =o b m0) wj filv) )| (2) 
j i 


Dann allerdings ist ein Vielfaches an Gewichten zu bestimmen und noch zu jeder 
inneren Summe ein Schwellenwert b;. Deshalb soll die Definition nach Gleichung 1 
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ausreichen, bei der man dann freilich die Normierungsfunktion zur Bestimmung 
des Maximums weglassen kann.? 

Die Gewichte kónnen bei vorliegenden manuellen Annotationen durch Re- 
gression gewonnen werden. Alternativ kann man versuchen, sie grob zu schátzen, 
indem man überlegt, welches Merkmal wohl am wichtigsten ist, welches am zweit- 
wichtigsten usw. und versucht zu bestimmen, wievielmal wichtiger das wichtigste 
Merkmal als die anderen Merkmale ist. Das láuft dann auf ein hybrides Verfahren 
für die erste Phase hinaus: 

1. Mitden geschátzten Gewichten generiert man eine Liste von Beispielkópfen 
wie in einem regelbasierten Verfahren. 

2. Dieseunterzieht man einer Revision und ersetzt diejenigen Kópfe, die nicht 
richtig annotiert worden sind. 

3. Diese manuell korrigierte Liste verwendet man dann als Zielliste anstelle der 
manuellen Annotationen im Volltext und versucht, die Gewichte durch Re- 
gression akkurater zu bestimmen. 


Die Liste besteht aus Tupeln aus der ID des Satzes und der ID des Tokens, welches 
als Kopf bestimmt worden ist. — Auch dies kann als eine Form von Annotationen 
aufgefasst werden; sie weist eine Ähnlichkeit mit Stand-Off-Markup!? auf. 


4.1.3 Wortart 


Nicht nur die Merkmalsgewichte, sondern auch die Auswertfunktionen der Merk- 
male enthalten Parameter, die bestimmt werden müssen. So auch die Auswertfunk- 
tion für das PoS-tag. Auch hier werde mit geschátzten Parametern begonnen. Sei p 
die Komponente des Merkmalsvektors, in der das PoS-tag gegeben ist, wobei Wort- 
artenklassen des Stuttgart-Tübingen-TagSet (STTS, Schiller et al. 1999) verwendet 
werden, dann sei fp, : V  [0, 1] definiert durch: 


9 Es gibt natürlich alternative Formen für k. Eine ware ein Inferenznetzwerk mit Sicherheitsfakto- 
ren (vgl. Beierle und Kern-Isberner 2014, 90-96). Allerdings ist es dort schwieriger, Gewichte zu 
bestimmen. 
10 Vgl. z.B. TEI Consortium (2019, 575-579), und insbesondere das Text Corpus Format (TCF) 
von WebLicht: https://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/The TCF Format 
(07.09.2019) 
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1 falls p € (NE, FM} 
0,8 falls p € {NN} 
0,5 falls p € (VVINF, 
VVIZU, VVPP} 
Bross p.) = 0,4 falls p € {VVFIN} 6) 
0,2 falls p € {VMINF} 
0,1 falls p € {VAINF} 


0 sonst 


4.1.4 Distanz zum Marker 


Sei d, die Distanz zwischen dem untersuchten Token und dem Marker, gemessen 
in dazwischenliegenden Tokens, und /, die Lange des Satzes, in dem beide vor- 
kommen, wieder gemessen in Tokens. Sowohl d, als auch I; ist eine Komponente 
des Merkmalsvektors. Dann sei die normierte Auswertfunktion fj, : V +> [0,1] 


definiert durch: 
d, 


l, 


Die Distanz in Kommata f,. werde analog aus d, und l, errechnet. 


Sal. sdels...):=1- (4) 


4.1.5 Richtung 


Erfahrungsgemáf steht der Marker ófter vor dem Beispiel als hinter ihm. Entspre- 
chend enthált auch die hier sogenannte Richtung einen Schátzwert. Seien p,, und 
p; die Positionsnummer des Markers bzw. des untersuchten Tokens im Satz und 
beides im Merkmalsvektor gegeben. Dann sei fj; : V > [0, 1] definiert durch: 


a falls p, < Pm 
3h sonst 


Soir Ces Pw Po 2) := | (5) 


4.1.6 Frequenz 


Die im Merkmalsvektor als h, gegebene absolute Häufigkeit des Tokens im Do- 
kument soll derart auf das Intervall [0, 1] abgebildet werden, dass ein hapax le- 
gomenon auf 1 und háufigere Tokens auf kleinere Werte abgebildet werden. Die 
Auswertfunktion für die Token-Frequenz f, fi V = [0 1] sei definiert durch: 
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1-cH falls fpos((...» Ps...) > 0 
0 sonst 


Frl Do Bg Hs... )) := | (6) 
wobei H, das Maximum der absoluten Frequenzen all der Tokens im Dokument sei, 
für die fp,s > 0 gilt, die also zur offenen Wortklasse und nicht zu den Stopp-Wörtern 
gehören. H, sei ebenfalls im Merkmalsvektor gegeben. Die Funktion entspricht 
damit der augmented normalized term frequency nach Salton and Buckley (1988, 
518). c ist dabei ein Parameter, der den Abfall des Funktionswerts bei steigender 
Frequenz adjustiert. 
Die Auswertfunktion für die Lemma-Frequenz fp; sei analog definiert. 


4.1.7 Ergebnisse aus Phase 1 


Für die Phase 1 des zweistufigen Verfahrens ist ein Prototyp in der Programmier- 
sprache R implementiert. Als Gewichte werden wp,s = 3, wa, = 2, Wae = 6, Wf = 0 
und uj, = 4 verwendet. 

In Immanuel Kants dritter Kritik gibt es 51 eindeutige Marker ,,z. B.“. Das Ver- 
fahren liefert dazu folgende Beispiel-Kópfe: 1 


mihi, Substanz, Bergkristall, Kórper, Geister, Rose, Rasenplatzes, Walde, Schónheit, Grabhü- 
geln, Tulpe, Größe, Tiere, Kunstprodukten, Fuß, Affekten, Gebäude, Zorn, Formen, Tulpen, 
Farben, Lohn, Dichtkunst, Kenntnis, Pferdes, Weib, Genius, Tod, Dichter, Haß, Leuten, Linie, 
Bau, tun, Parabel, Garten, Zirkels, Eigenschaft, Flüsse, Haus, Körper, Ungeziefer, Winde, 
Prädikate, Ursache, Made, Wassertiere, Erden, Seele, Ewigkeit, Ewigkeit 


Darunter sind einige Wörter, die nicht zu erwarten waren, weil es sich um allge- 
meine Konzepte handelt: „Substanz“, „Körper“, „Affekten“ oder „Formen“ etwa. 
Jedoch sind „Substanz“, „Körper“ und „Affekten“ korrekt. „Formen“ ist nicht kor- 
rekt und der Fehler kann auch identifiziert werden: Er besteht darin, in fy, einen 
Doppelpunkt nicht als Satzzeichen, nicht als Komma, gezählt zu haben. Obwohl 
„Tiere“ korrekt erscheint, hätte besser ein Adjektiv im selben Satz ausgewählt wer- 
den sollen. „Schönheit“ ist nicht korrekt, vielmehr handelt es sich um das Thema 
der Passage - und der halben dritten Kritik. Dieses Token kommt 112 Mal vor. Auch 
hier kann aber die Ursache des Fehlers identifiziert werden: Ein korrekter Kandidat 
in diesem Satz wäre „Wohnhause“ gewesen, aber die Lemmatisierung durch Web- 
Licht funktioniert bei Komposita nicht richtig, sondern gibt dann stets „unkown“ 
aus. Weil es viele Komposita gibt, ist die Häufigkeit dieses Lemmas entsprechend 


11 Datengrundlage ist hier die von Gutenberg-DE ausgelesene Fassung. 
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hoch und das stark gewichtete Merkmal n niedrig. So hat „Schönheit“ einen 
hohen Wert erlangt und ist als Beispiel-Kopf annotiert worden. 

Insgesamt handelt es sich um 5 Fehler in 51 Annotationen. Für einen Anfang 
mit derart grob geschátzten Gewichten ist diese Genauigkeit (precision) akzeptabel; 
bei der Trefferquote (recall) kann man davon ausgehen, dass alle Bigramme „z.B.“ 
gefunden und zu jedem ein Kopf bestimmt worden ist. Aber es ist klar, dass eine 
bessere Bestimmung der Gewichte durch ein Regressionsverfahren wünschenswert 
ware. Allerdings wird in der Analyse der Fehler auch deutlich, wie viel vom pre- 
processing abhängt. 

In Karl Rosenkranz’ Ästhetik des Häßlichen (Rosenkranz 1853) gibt es 127 ein- 
deutige Beispielmarker. Dies ist die Liste der durch den Algorithmus ausgewáhlten 
Kópfe: (Aus druck-technischen Gründen ist das lange S (U--017F) durch ein norma- 
les s ersetzt worden.) 


Holzschnitten, Künstlers, lyrirische, Immermann's, Schaukel, Typus, Amphibien, Schaaf, 
Skropheln, Knochenauftreibungen, Danaé, Iphigenia, Danzig, Nehmen, Raums, Landschafts- 
maler, Stellen, Betrachten, Quixote, Ornamentik, Aristophanes, Pedantismus, Stellen, heißt, 
Bertram, Index, Sonaten, Wandmalerei, Prutz, Strepsiades, Landschaftbilde, Platen, Ar- 
chitekturgemälde, Gestalten, Franzosen, Schwert, Maria, Cleopatra, Adam, Büffel, Ode, 
Frazzen, China, Wahrheit, Klenze's, Salzburg, Architektur, Physiognomie, Verwesung, Un- 
symmetrische, Epilepsie, Größe, Leben, Buckligter, Leben, Verse, Epik, Kirche, Kopperfield, 
Uebelmacht, Waldbrand, David, Museum, Benjamin, Verhältniß, Tabacksasche, Lexikon, 
Sport, Vaudeville, Reim, Romane, Hyàne, Fróschen, Menschen, Lingam, Held, Sue, Juan, 
Halm’s, Kindermord, Victor, Góttin, Statue, Marmorstatue, Elephanten, Morolf, Bildung, sa- 
gen, Hohenbaum, Jerusalem, Koprolith, Heine, beweisen, Elephantiasis, Aristophanes, agua, 
Tiberius, Scene, Lüge, Kleist, Banquo, Henriade, Lear, Familie, Christi, Grabbe, Nase, Grego- 
rius, Háhne, Moliéres, Tópfers, Sand, Attellanen, Hindubettler, Besitznahme, Kotzebue's, 
Volksbuch, Hauptstelle, Erdbeben, Architektur, Schenke, Unzahl, Posse, Cain. 


An beiden Listen wird deutlich, wie wünschenswert es wáre, nach der Bestimmung 
des Kopfes eine Ausweitung auf eine Phrase zu berechnen. 


4.2 Phase 2: Entscheiden über weitere Vorkommen 


Die Ergebnisse aus Phase 1 unterstreichen, dass die Aufgabe in Phase 2 nicht trivial 
ist. Besonders die Tokens mittlerer Frequenz stellen eine Herausforderung dar: 
Der Begriff „Körper“, der einmal korrekt als Beispielkopf ausgewählt worden ist, 
kommt 33 Mal in der dritten Kritik vor. „Größe“ sogar 48 Mal. Nur ein Bruchteil der 
weiteren Vorkommen stehen im Zusammenhang mit Beispielen. 

Manuelle Annotationen lassen sich für die zweite Phase schnell und ohne 
viel Aufwand erstellen. Auch ist das decision tree learning ein guter Kandidat 
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für machine learning, der zudem vorteilhafterweise nicht so viele Trainingsdaten 

benötigt wie ein Perceptron. Die größte Herausforderung liegt in dieser Phase 

in der Definition hinreichend diskriminierender Merkmale. Die Frequenz, die in 

Phase 1 besonders relevant gewesen ist, reicht hier hóchstens dazu aus, einen 

Schwellenwert zu definieren, bei dessen Überschreitung gleich alle Vorkommen 

nicht annotiert werden, um im Resultat nicht so viele falschpositive Annotationen 

zu haben. Hier seien lediglich einige Ideen zu einem Merkmalsraum skizziert, 
deren Implementierung noch auf sich wartet. Es sei das Dokument, in dem ein 

Token als Beispielkopf ausgewählt worden ist, das Quelldokument, und der Satz 

der Quellsatz; und es sei das Dokument, in dem ein weiteres Vorkommen dieses 

Tokens vorliegt, das Zieldokument, und der dieses Token enthaltende Satz der 

Zielsatz. Als Merkmale sind in Betracht zu ziehen: 

— die Ähnlichkeit zwischen Quell- und Zielsatz, wobei als Ähnlichkeitsmaß das 
Vorkommen gleicher Tokens in Frage kommt; 

- die Ähnlichkeit zwischen Umgebungen, die über Quell- und Zielsatz hinausge- 
hen, etwa zwei Sátze davor und dahinter, der gesamte Absatz oder das Kapitel; 

- durch Word-Embeddings gefundene Beziehungen zwischen Unigrammen, 
insbesondere Synonymie und Hyponymie; 

- die Ähnlichkeit von Einheiten, die kleiner sind als der Quell- und Zielsatz, 
etwa zwischen PoS-Tag-N-Grams, mit denen die Phrasenstruktur approximiert 
werden kann. Dabei ware besonders auf ahnliche Modifizierer wie Adjektive 
zu achten; 

- eine größere absolute Häufigkeit des Tokens sowohl im Quell- als auch im 
Zieldokument muss ein Faktor sein, der die Wahrscheinlichkeit einer positiven 
Entscheidung reduziert; 

- gegebenenfalls sind Schwellenwerte für die relative Haufigkeit festzulegen, 
bei deren Überschreitung die Entscheidung bei jedem Vorkommen des Tokens 
negativ ausfallt; 

- wenn das Token mehrmals als Kopf ausgewáhlt worden ist, kann dies auch 
von Relevanz sein. 


5 Fazit 


Auch wenn das reformulierte Modell für Beispiel-Annotationen noch nicht voll- 
stándig implementiert ist, zeichnet sich doch schon jetzt mit den akzeptablen 
Ergebnissen der ersten Phase ab, dass ein funktionierendes Experimentalsystem 
viel leichter realisierbar ist als mit den komplexen Annotationen der propositio- 
nalen Struktur. Der Grund ist, dass die Annotationen konzeptionell viel näher an 
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einen Algorithmus rücken, wáhrend dieser bei den komplexen Annotationen das 
Versprechen einer Zukunft bleibt. In dem reformulierten Modell sind die Span- 
nungen zwischen der interpretativen Arbeit am philosophischen Text und dem 
Formalismus des Vokabulars, die für die komplexen Annotationen kennzeich- 
nend waren, weitgehend verschwunden und es rücken Maße wie precision und 
recall für die Genauigkeit maschineller Annotationen an ihre Stelle. Entsprechend 
sind auch die manuellen Annotationen nicht mehr mit großen hermeneutischen 
Investitionen verbunden; Annotieren ist hier kein close reading mehr, sondern 
tendenziell ein technischer Vorgang. In dem beschriebenen hybriden Aufbau, in 
welchem die Liste der Beispiel-Kópfe, die das regelbasierte Verfahren geliefert 
hat, einer Revision unterzogen wird, um dann die Gewichte mittels Regression 
besser zu bestimmen, haben die Annotationen keinerlei Ahnlichkeit mehr mit 
dem Markup eines XML-Dokuments. Sie bleiben aber dennoch deutlich eine Form 
des Informationsaustauschs in der Mensch-Maschine-Kommunikation über einen 
Text. 
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Towards a Cognitive Ecology of Annotation 


Abstract: To paraphrase Edwin Hutchins, a "cognitive ecology" is a study of a 
cognitive phenomenon in its whole context — material, biological, anthropological, 
psychological, social, historical. Here I argue that annotation's cognitive ecology 
has potential for richly informing the application of digital techniques to making, 
studying and transforming all manner of annotative practices. The Cognitive Sci- 
ences have much to say that would be of help in reorientating our perspective to 
bring the dynamic variety and inventive genius of these practices into focus before 
we attempt implementation. 


Keywords: Practice Theory, Commenting, Note-Making, Cognitive Ecology, Cogni- 
tive Sciences, Epistemology 


1 Thinking with hands and whatever comes to hand 


In his classic study Cognition in the Wild, Edwin Hutchins shows how much close 
ethnographic study can tell us about thinking with eyes and hands in the context 
of disciplined work with navigational equipment (1995; cf. 2010). He documents 
the cognitive systems they form together with the instruments and objects this 
work involves. “Humans create their cognitive powers”, he argues, “by creating 
the environments in which they exercise those powers."! Such cognitive systems 
"exist in all facets of our lives" but unfortunately studies of them are relatively rare 
(1995, 371). He lists 13. More have been done since he wrote, supported by the work 
of Anderson, Clark and many others.? But in every area of disciplined activity there 
remains much to be done. 


1 Hutchins (1995), xvi. Note that his ethnographic study is chiefly concerned with navigation on a 
large naval vessel, although he does discuss traditional Micronesian navigation knowledgeably 
at length (1995, 65-93), based on an earlier hands-on study. His emphasis in the book is in 
consequence on knowledge crafted into instrumentation rather than held in the sailor's head. 
There is much that the crew of a naval vessel does not have to know, hence the size, complexity 
and abilities of the ship are made possible. 

2 See Anderson (2014), Clark (2008), Clark et al. (2013). 
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Studying the cognitive ecology of an activity we would implement is especially 
important lest we model its observable actions without taking into account the 
cognition which is done with and shaped by them. Here I consider annotation and 
attempt to sketch its cognitive ecology. 

Annotation, like any subject worth the candle, grows larger, more various and 
complex the more you think about it. One reaction is to fall to definition as quickly 
as possible rather than seize the opportunity, not to get a grip on it but to see 
the extent of its embrace before you try to embrace it. At some point, if you want 
to have something useful to say, you must set limits for your subject, but having 
let annotation get out of hand, you can at least make an informed choice. Giving 
annotation free reign before deciding what you are going to say or do about it is 
important if you are a maker of tools and so must decide what the tool will afford 
the user of it and what it won't. 

There is more to consider. Annotation is something people do in the world; 
making a tool for them, or just wanting to understand what they do, means taking 
the variety and variability of their practices and situations seriously into account. 
Among other things, it is an anthropological and cognitive psychological problem. 
I will come to the anthropology later. Now let me begin with a cognitive psycholo- 
gist's words: 


We think with our hands and our faces and our bodies. We think with the marks and the 
arrangements of marks we make on paper and the things and arrangements of things in the 
world. You might counter, but all that goes through the brain. Of course, nearly everything 
goes through the brain. Eating goes through the brain, from the biting and chewing onward. 
As does walking. Nevertheless, we don't say we eat or walk with the brain. (Tversky 2014, 3-4) 


2 Marking the world 


In Marking the Mind, historian of psychology Kurt Danziger shows in detail the 
key role of metaphors in the conception of memory (2008, cf. Draaisma 2000). 
The most persistent and influential of these have been metaphors of inscription, 
dominant at least in part because, Danziger suggests, *The memory of homo sapiens 
appears always to have relied on some form of inscription on an external medium." 
(2008, 27) In the Western tradition, the usual starting point is Plato's analogy of 
the wax tablet on which memories are impressed like stamps (Thaetetus, 191c-d). 
Plato's tablet shares with other popular analogies a concrete, material basis, which 
gave it *a technological aspect... capable of enormous historical development in 
terms of the medium employed and the gradual exploitation of possibilities offered 
by these media" (Danziger 2008, 27). In addition to the wax tablet, we can cite, for 
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example, the scroll or codex, the phonograph record and the photograph. Each 
in its time inflected the idea of memory differently. Now the digital computer is 
dominant. 

The computer brought along with it the very difficult problem of how in various 
media to engineer the ‘memory’ John von Neumann had imagined in his architec- 
tural sketch ([1945] 1993). In time the goal of absolute accuracy (getting out exactly 
what was put in) was more or less achieved thanks to extravagantly engineered 
error-correction mechanisms that maintain the crisp binary signals and logic we 
mistakenly think are a given. It seems plausible that the much publicised accuracy 
of the machine had a role in strengthening the notion that remembering is to be 
judged by its objective faithfulness to what has ‘actually happened’. Although that 
idea is still with us, the early twentieth-century psychologist Frederic Bartlett’s 
prescient turn from memory to remembering, and the constructive “effort after 
meaning” he identified in remembering, set a different course, towards James Gib- 
son’s idea that cognition takes place by means of the variable affordances which 
the world provides. 

Hence annotating becomes a site not so much for recording or recalling, rather 
for knowing-in-doing. In other words, when marking the world with our thoughts 
(on scraps of paper, on a wall somewhere, with an app on a mobile phone etc.) 
we are thinking with whatever affordances come to hand. We couple ourselves 
temporarily with these affordances in a kinaesthetic-cognitive intercourse that 
binds together note-maker and physical medium in order to bring thoughts into 
being and communicate them.‘ 

But let us temporarily put aside the ‘thinking’ and consider the ‘whatever’ with 
which this thinking is done. Consider that each ‘whatever’ affords some kinds of 
annotating and not others, and that once chosen it affects and shapes the thinking 
done with it. So the variety of the affordances matters. It matters to the annotator, 
to the student of annotation and to the systems designer. 

I want to put strong emphasis on the form-changing fluidity and multiplicity 
of annotation’s practices. I want to stay the implementer’s hand from reaching 
prematurely for the XML spanner or the programmer’s toolkit. I want to persuade 
the note-maker to consider simpler, older means before conforming his or her 
practice to available software. I want to delay the scholar from hiring a technical 


3 (Bartlett [1932] 1995; Gibson [1979] 1986). See also e.g. Hutchins (1995); Clark (2008) and Ander- 
son (2014). Daston and Galison (2007) is in this tradition. 

4 On ‘coupling’ in cybernetics and biology, see Keller (2008, 71); Maturana Romesin (2002); 
Pickering (2010); more generally, see Neumann and Cowley (2017); Etzelmiiller and Tewes (2016), 
esp. the chapters by Tewes and by Gallagher and Ransom. The literature on conversation is also 
very helpful; see Taylor (2016), esp. Chapter 2. 
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expert to encode his or her sources without first interrogating the gulf between 
them and what is to be known from them. 
Let us consider first the maker, then the reader of notes. 


3 Note-making 


Nowadays the note-maker, wanting the benefits of the machine, looks for a fit app, 
perhaps finds one and gets to work. Almost inevitably, however, he or she runs into 
the app’s limitations. Seeing an opportunity, but before reaching for the toolbox, 
the properly educated systems designer will consider what’s been done and what’s 
available, then talk to many note-makers about their practices, likes and dislikes. 
Experience suggests to me - I’ve actually done this - that such anthropological 
fieldwork and time spent with the relevant literature will not converge on a single, 
one-size-fits-all design, and that the elusiveness of such a design is fundamentally 
not due to the shortcomings of current technologies. The basic problem is that note- 
making is not itself singular nor does it tend to settle down for good. Indeed, it is not 
an ‘it’ but, as I suggested, a fluid mode of thinking-by-doing realised in a coupling 
with one or more of the world's affordances, taken up then abandoned as suits the 
occasion. Note-making is not invariant across research projects, the individuals 
who pursue them, their subject areas and the physical media and circumstances 
involved. It may vary, possibly for no identifiable reason, even from one day to 
the next. The point is not at all that the means are irrelevant — they are indeed 
essential in their concrete particulars — rather that couplings are impermanent, 
answerable to the variable situation of note-making. 

Now I want to get personal and specific, to talk about my own note-making 
practices in an ongoing project. The technologically minimalist style I am about to 
describe is not how I always take and use notes, but I have often worked in this 
way when the project is large in scope and complex. Again, experience has taught 
me that no one size or even a discrete range of sizes will fit all circumstances or 
even a majority. We must begin with specific examples, of which this is one. But 
my point is to exemplify the coupling, not promote a particular method or tool. 

Index cards and the boxes they were kept in were universal to research when 
I began my doctoral dissertation, but I only realised the full potential of index 
cards when I encountered the great James Murray's lexicographical method. In 
his *President's Address" to the London Philological Society (Murray 1884), he 
described how he composed entries for the Oxford English Dictionary by arranging 
and rearranging the slips of paper which recorded actual uses of words that had 
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been contributed by his large network of readers. The lexicographer, he wrote, 
takes the slips pertaining to a particular word and 


spreads them out on a table or on the floor, where he can obtain a general survey of the whole, 
and spends hour after hour in shifting them about like pieces on a chess board, striving 
to find in the fragmentary evidence of an incomplete historical record, such a sequence of 
meanings as may form a logical chain of development.... Such is the nature of the task; those 
who think that such work can be hurried, or that anything can accelerate it, except more 
brain power brought to bear on it, had better try. (1884, 510) 


Markus Krajewski comments in Paper Machines that despite the undeniably trans- 
formative effects of digital technologies, things also “remain the same": the card- 
index continues to surface, as it does with me, again and again. As I will demon- 
strate, it is undoubtedly laborious but when used well it is nevertheless marvel- 
lously efficient ([2002] 2011, 143). Krajewski cites Niklas Luhmann’s account of his 
card index system, “the furnace in which the texts are forged”. In an interview, 
Luhmann describes how his ideas come from a card-box of notes, by sorting and 
combining them. 


The new ideas then arise from the different combinations of the notes to the individual terms. 
Without the notes, so by reflection alone, I would not come to such ideas. Of course my head 
is required to write down the ideas, but it cannot be held responsible for them alone. In that 
sense, I work like a computer, which can also be creative in the sense that by combining 
input data, it produces new results that were not predictable.^ 


The card-index is “like a computer” because both are fundamentally combinatorial 
(cf. Berge [1968] 1971), hence creative not only within but also by means of their 
constraints. Thus mathematician Martin Gardner: *When ideas are combined in all 
possible ways, the new combinations start the mind thinking along novel channels 
and one is led to discover fresh truths and arguments." (1958, 17) The question to 
ask of both digital and paper machines is where and how their artificial intelligence 
arises: in the coupling with the enquirer, yes, but what happens there? Currently 
we do not have an answer, but we can start by not underestimating the power 
of knowing-by-doing and so pay attention to what changes when the observable 
actions of note-making are translated into software. What happens, for example, 


5 “Die neuen Ideen ergeben sich dann aus den verschiedenen Kombinationsmóglichkeiten der 
Zettel zu den einzelnen Begriffen. Ohne die Zettel, also allein durch Nachdenken, würde ich auf 
solche Ideen nicht kommen. Natürlich ist mein Kopf erforderlich, um die Einfalle zu notieren, aber 
er kann nicht allein dafür verantwortlich gemacht werden. Insofern arbeite ich wie ein Computer, 
der jaauch in dem Sinne kreativ sein kann, daf$ er durch die Kombination eingegebener Daten 
neue Ergebnisse produziert, die so nicht voraussehbar waren." (1987, 144 f., my transl.) 
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involvement—but without much more speci 
ben mode. A free-floating divine operation would 


‘ad hoc fashion. How else might it be involved? 

- scholarly discussion of divine involvement in pe ei 
discussed above, yields no help. He cannot mean that the m 
volved because the fixed stars desire the Prime Mover. This 

row, it accounts caly for their circular motion, Equally 

would be a proposal that be means that, in some general way, since ite 
divine is the indirect cause of all kinetic motion in the universe, via ty 
movessents of the heavens, it is also the ultimate indirect source of ty 
motions that resak in locky psychic movement. Sach a claim is mah 
too broad to be of value. But as was explored above, there is another 


possibility. 

‘The impulse hypothesis presents a promising path forward (and the 
reason I chose the name is by now clear). According to the account af 
luckiness, 1) asa co-condition of consistent lackiness, people need isde 
empty-headed: 2) when in this state, the higher-order centers that int 
ate motion are not operative, just bare impulses; and 3) to explain bow 
these might incline toward good outcomes requires the divine. And 
Just so, the impulse hypothesis made room for a very narrow mode fx 
the divine to be involved in the workings of the deep structure ofal 
‘events in nature, According to it, movements from potentiality té x1 
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ares which s accompanied by an accidental benefit. In the case 

posent Aristotle has specifically ruled out tbe idea of 

praxis, and instead speaks of benefits accruing to a buman 

exstidered as a hunk of the natural world, without engaging any par- 

euler volition (EE 1247628 -33). As we saw above, the proper term for. 
detuieus outcomes im nature, divorced from purposeful baman 
panis isthe spontaneous (rò abróparov). So the fact that these people 
gerne entirely outside of self-conscious goal-directed action argues 
thet these events would fall under the fourth category of the spontane- 
om." But as a final consideration, there is at least some reason to think 


are precipitated via the Prime Mover, While nature sets out the circa 
for these movements, the divine provides the voltage that actui 
them. Farther, like a vector that has both force and direction, this i= 
petes to actualize as a consistent direction. It does nat prepa | 


Fig. 1: Taking preliminary notes while reading a book 


when the inchoate, shifting relationships expressed spatially by a desk strewn with 
piles of cards is rendered by screen-icons with named links between them? Much 
more needs to be known about the space between brain and card, mind and the 
worldly affordances to mindfulness. The examples I am about to give should help. 

But note: once again, there is nothing canonical here. I provide only an example. 

Again, what matters is that we pay attention at a fine-grained level to individuals’ 
actions and experiences on particular occasions for particular projects. These are 
mine, illustrated here: 

1. Very brief notes are taken on paper slips while reading a book. The idea here 
is to record ideas, keywords and references to other sources I want to come 
back to later for more detailed note-making. The highly variable circumstances 
under which reading can be done and the sheer convenience of taking notes in 
this way while reading a codex make it a very effective procedure. (see Fig. 1) 

2. Alternatively, notes are taken from a digitised source, such as an article or 
book-chapter, displayed on screen. Notes are written, often with the aid of 
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ROLLING THE DICE FOR AN ANSWER 


Fnrrz GRAF 


Divination'—"the foresight (praesensio) and knowledge of the future", 
in Cicero's definition?—has always been caught between the horns 
of belief and skepticism that form the basic structure of Cicero's 
dialogue on the topic, between the serious trust of Quintus and the 
smiling connivance of the augur Marcus. Already the Greek and 
Roman debate shows how difficult it is to overcome this dichotomy; 
this might be one of the reasons that scholars, especially scholars of 
antiquity, have been remarkably reluctant to address divination in the 
past. No English book on the topic has appeared since Halliday's Greek 


Divination of 1913. with the exception of monoeranhs about Delnhi 
€ at^ ination 1 


mi bamboo sticks neal a argie wich emerges further duas the cthers and than penis toward a given text [continen] 


Gral. Roling the ace 60-42 


Fig. 2: Expanding and recording preliminary notes 


cut-and-paste from the source, directly into a program (such as QwikCards, 
shown here). (see Fig. 2) 

3. The very brief notes made at (1), above, are expanded, written into QwikCards 
from the book, which if at all possible has been digitized and is accessed on 
Screen. 

4. Atopical collection of notes in QwikCards is printed, four to a sheet of paper, 
then cut into individual cards and stacked for sorting. The stack of printed 
cards is sorted into topical piles, labelled and clipped together. Cards may be 
resorted a number of times during this stage. (see Fig. 3 on the following page) 

5. Notes are then taken with pen-and-paper from each of the labelled piles to 
attempt a proto-narrative. In simple cases, the resulting sheets are then used 
as prompts for writing; in more complicated cases, the individual notes on the 
sheets are cut up, pasted onto new sheets, scanned and printed before writing 
begins. (see Fig. 4 on page 279) 


The labour and time involved should be painfully obvious. But note: equally im- 
portant to the product - many pages such as the one in Figure 4 on page 279 - is 
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Fig. 3: Expanded notes, printed out and sorted topically 


what is not and cannot be shown: the intellectual-kinaesthetic work of sorting out 
a highly complex subject and producing that proto-narrative. In my experience 
such labour and the invisible intellectual work are inseparable. The fact that the 
implicit links between cards and piles of cards are left implicit - changeable if not 
fluid, if not tacit, intertwined with inchoate feelings that an idea or cluster of ideas 
‘belongs with’ or ‘is far away from’ or ‘is quite unlike’ another, or is a right-handed 
or left-handed sort of thing - is in my view essential. 

Again, I am not saying that I always do things this way. In fact the cutting-up 
and reassembling of handwritten notes is something I’ve never done before in 
all the many years I’ve been note-making. It is new with this especially complex 
project. Again, I make up the process as I go along, more or less as seems to fit the 
occasion. 

Before moving on, let me give recognition to the two most thoughtful software 
environments I know: NoteCards, devised at Xerox PARC in the 1970s, and Pliny, 
designed and built by my colleague John Bradley early this century.® Neither of 
these made it to market; both were brilliant experiments conducted in the medium 


6 On NoteCards see Halasz et al. (2001); Brown (1985) and Halasz, Moran and Trigg (1987); cf. 
Norman and Draper (1986), Chapters 11, 22 and passim; on Pliny, Bradley (2008, cf. 2012); fora 
survey of annotation systems, Hunter (2009). See also DeRose (1989). For Vannevar Bush’s Memex, 
grandfather of all, see Nyce and Kahn (1991) and Engelbart (1962, 48 ff). 
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Fig. 4: Construction of a proto-narrative from a topical collection 
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of software. I am not holding my breath for a system as good as these but better for 
my purposes than the methodological rag-bag I have just described. But the aim of 
designing and building such software is clear: better to understand the recursive 
mind-to-affordance coupling of note-maker to whatever medium. 


4 Reading annotations 


Iturn now from the devising to the unpacking of notes, and so from the coupling 
of note-maker and material affordance to the probing of the trace that note-making 
makes and of its implicit coupling, intellectually, socio-culturally and historically. 

Annotation is defined by the fact that it is secondary to something else, to 
a prior or original text, image, object or event. In the recent past, from the early 
to mid-nineteenth century until the last quarter of the twentieth, it was largely 
regarded by mainstream scholarship, if at all, as marginal in every sense.’ But 
within the last three to four decades it has become a topic of keen interest across the 
board as a part ofa greater shift of attention from central to peripheral phenomena, 
or rather, to the decentring realisation of many perspectives. 

In the following I will focus on three examples of coupling in the study of 
annotations: a single complex gloss to a Late Antique text in an early medieval 
manuscript; a cognitive-historical study of nineteenth-century experimental sci- 
ence; and a contemporary graffito. These three unlikely bedfellows in combination 
with the account of my own note-making practices will provide a basis for some 
thoughts on the challenges that annotation poses to our understanding as well as 
to our plans toward realising better tools, including a ‘digital edition’ worthy of 
the name. 


7 Jackson (2001), chapter 2, provides a very brief history from Greek scholia onward; the book 
as a whole is focused on annotation in England from the eighteenth through the twentieth cen- 
turies. For the Romantic period in English literature, see Jackson (2005); for medieval glossing, 
O'Sullivan (2018); Teeuwen and Van Renswoude (2017); Dinkova-Bruun and Major (2017), esp. the 
Introduction and O'Sullivan's chapter; Mayr-Harting (2008); Wieland et al. (2006), esp. chapters 
by Miles, Ruff, Wright and Dinkova-Bruun; Wieland (1983). For annotation from the perspective of 
implementation see Marshall (2010). 

8 Eco ([1962] 1997, 1-14) “Introduzione” and (1989), with the Introduction by David Robey; Derrida 
([1966] 2001); ([1967] 1997), together with the translator's Preface; Deleuze ([1968] 1994), chapters 
1and 6; cf. Donato (1973); Inwood and McCarty (2010). 
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Fig. 5: A student's marginalia 


4.1 Glossing as a discipline 


Although writing in books is for us often an anathema, scholars still make marginal 
annotations when focused on a single text, as in Figure 5 — an opening from my 
copy of John Milton's Paradise Lost, which I annotated during my doctoral research. 

In medieval manuscripts such 'glosses' were likewise written in the margins 
and between the lines of a text. Figure 6 on the next page shows a page from 
such a manuscript: page 10 verso of Leiden BPL 36, a ninth-century manuscript 
of Martianus Capella's early fifth-century work De nuptiis Philologiae et Mercurii 
(*On the marriage of Philology and Mercury")? De nuptiis is an intricate allegorical 
exposition of the seven liberal arts - grammar, rhetoric, and logic (known as the 
trivium) and geometry, arithmetic, music, and astronomy (the quadrivium); these 
formed the basis for medieval education, to which we remain indebted. Keep in 
mind that when the glossator set to work, De nuptiis was a 400 year-old text written 


9 Iam indebted to Sinead O'Sullivan for the example, pointers to scholarship and comments on 
this section of the paper. Thanks to André Bouwman, Leiden University Library, for permission to 
reproduce Leiden BPL 36, 10v. 
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Fig. 6: An annotated ninth-century manuscript (Leiden BPL 36, 10v) 
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under very different cultural, intellectual and linguistic conditions; it was being 
put to use for very different ends. Such books were costly to produce.!? Glossing 
was a serious matter. 

Often, but not always, marginalia of the kind shown here were written by the 
same scribe who wrote out the text on which he or she then commented.“ They 
can be primarily lexical, grammatical, syntactical or hermeneutical; they are often 
intertextual, sometimes citing authorities by name, sometimes only echoing them. 
Functionally, that is, glosses have two main purposes. The first is to clarify the 
literal meaning of the text on which they comment (Wieland 1983); the second 
is to interpret, or rather, to engage if not entangle the reader in an interpretative 
struggle. Sinéad O'Sullivan, for example, argues that medieval readers must on 
occasion have had great difficulties understanding the glossator's obscurities and 
responding to the intertextual demands, and that we have good reason to suppose 
that these difficulties were created deliberately (2012). We can in any case note 
the difficulty that medieval readers, however scholarly, must have encountered in 
order to make sense of hermeneutical glosses. 

Modern readers may well bridle. In the Anglophone orbit, readers have been 
schooled for centuries in the policy vigorously advocated in the seventeenth century 
by Thomas Sprat, to practice “a close, naked, natural way of speaking" and writing, 
stripped of figurative language, “bringing all things as near the Mathematical 
plainness" as possible (1667, 113; cf. Frazer 1960). In other words, moderns in 
my tradition, apart from all the usual challenges of an historical source, must 
work even harder than the medieval reader, who would at least have expected 
*a kind of reading that was by nature slow, complex, open-ended, non-linear, 
fragmentary, multivalent, and requiring effort... driven not by the provision of a 
single interpretation but one that embraced variety and multiple possibilities." 
(O'Sullivan 2017, 372, 382) (Imaginative language, especially poetry, has always 
involved this kind of reading, of course.) Medieval readers would have expected 
glosses, unlike the modern footnote in an authoritative scholarly edition, to refer 
to all manner of intertextual sources. Moderns must take great pains not only 
to recreate imaginatively what the medieval reader knew and expected and to 
engage in the same struggle but also to enter the fray knowing that the glossator's 


10 Reynolds and Wilson, citing the recorded cost of books in the library of Arethas of Caesarea 
(early 10C), note that his Euclid cost 14 gold pieces, his Plato 21 pieces, whereas “civil service 
salaries started at 72 gold pieces per annum, and might rise in exceptional circumstances to 3,500. 
Book collecting", they conclude, *was not a hobby for men of modest means." (1991, 64) 

11 Mayr-Harting (2011, 53 ff.) cites abundant evidence of learned women scribes and glossators at 
Chelles, Seine-et-Marne, Paris, in the Carolingian period. 
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Sed tristis melius censio clauditur 
Atque infanda permit sensa silentium 
Neu uulgata ciant [eunt] corda doloribus. 


But a judgment of woe is better kept hidden: 
silence suppresses the inexpressible thoughts, 
lest, being uttered, they disturb our hearts with sorrow. 


sive consigo e» cluditur®"" videlicet ipsa dea absconsio quae gaudet de Tristis, quia alios tristes facit. 
occultandis iouis. Sad, for it makes others sorrowful. 
or the attempts i rimi is hidden ==, that is to say, that the goddess Absconsio 

who rejoices in those things which will have been hidden by Jove. Hoc dicit quia f x 


Quam uero laetitiam manifestandum. 

Here it says that it is better that it be hidden, as it is deemed to bring on sorrow 
Rather than in truth it will be revealed as joy. ... hat the marriage (of Philelogy 
amd Mercury) is not something sorroteful but to be criebratal, amd so it is good mews 
ard should be spread | 


Fig. 7: Enlargement of 3 glossed lines from Leiden BPL 36, 10v, with transcription and translation 


precise intention in the hermeneutical cases was to conceal in order to reveal.” 
However we profess not ‘to think like a computer’, we are schooled by it, as well as 
by Sprat’s legacy, to make explicit and to simplify to a “Mathematical plainness". 
The manuscript evidence goes directly against this schooling, attesting to a high 
probability that the effect if not the glossator's intention was to ensure as much as 
possible that the reader would struggle, per aspera ad astra, for an understanding 
of the profound matters that the text addressed. 

My first example provides just such evidence. Figure 7 enlarges the three 
lines and the glosses from Leiden BPL 36 that I want to discuss. Translations and 
expansions of the common Latin abbreviations are provided. 

The medieval reader would have had no trouble with Martianus' text: the 
pages of the manuscript are elegantly laid out, the handwriting is clear and the 
Latin untroubled. With this manuscript and with glossed manuscripts in general, 
however, difficulties begin with the glosses, which complicate the layout and make 
“the mise en page of early medieval glossed manuscripts... far from straightforward" 
(O'Sullivan 2017, 384), as follows. “The reader not only has to correlate the various 
glosses with their corresponding lemmata, but also has to disentangle and re- 
assemble information." (O'Sullivan 2017, 388) For the three glosses shown (sive 


12 See the discussion of the integumentum in Dronke (1974); cf. Dronke (1992), esp. Chapters 1 
and 2. 
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consio cluditur...; hoc dicit melius...; tristis, quia alios...) the steps are something 

like this: 

(1) make the link between the first gloss and the lemma in the main text (censio 
clauditur); 

(2) for the first gloss, figure out how to integrate its secondary gloss (id est abscon- 
sio, whose lemma is consio in the primary gloss; then scilicet ex-, for which 
cluditur is the lemma); 

(3) read absconsio as a plain noun (which doesn't make much sense), or somehow 
know that it is the name of a goddess, or leave the reading of absconsio in 
suspension and proceed to the remainder of the sentence, piece it together 
with its superscripted run-on, then return to id est absconsio to resolve the 
problem; 

(4) by reading the second gloss and the text, make the link between Hoc dicit... 
and the lemma melius...clauditur; 

(5) figure out that Tristis... is a separate gloss and connect it with its lemma tristis. 


In sum, unravelling and piecing together makes the reading difficult: *informa- 
tion... is not immediately accessible on account of (a) the layout of the glosses 
(e.g. with one of the marginal glosses written over two lines) and (b) layering of 
annotation (e.g. glosses on glosses)." (O'Sullivan 2017, 390) 

Again, the task delineated here is not to produce such a step-wise recipe as 
I have given, which in any case is very far indeed from a complete and faithful 
account of all that was or could have been involved in a typical reading of the 
manuscript. Rather it is better to appreciate the coupling intended, and what it 
was designed to accomplish (cf. O'Sullivan 2012). 


4.2 Experimental science 


To be clear: ‘coupling’, thus far, is still mostly a promissory note for a dynamic, 
reciprocal relationship that, I am arguing, is common across practices of annota- 
tion. My examples, of which the following one is the most analytically satisfying, 
will help me make good on the promise. But for now I would ask you kindly to be 
patient. 

The link that makes experimental science kin to the glossator's work begins 
with Thomas Kuhn's historicisation of science in The Structure of Scientific Revo- 
lutions in 1962 and with Ian Hacking's philosophical demonstration of the inde- 
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pendence and creative role of experiment in 1983. Until Hacking's intervention, 
followed by the work of Peter Galison and a number of others, experiment was 
largely regarded as mere servant to theory, not much more than a way of testing 
theories for their robustness. At about the same time as Hacking's declaration that 
*Experimentation has a life of its own" (1983, 150), historians began turning to 
scientists’ laboratory notebooks to study the life of experiments, “to seize them as 
much as possible with [the experimenter's] discovering hands".'^ The result has 
been studies of two kinds, one primarily historical, the other ‘cognitive-historical’, 
combining Cognitive Psychology with History in order to bring the historical pro- 
cesses of thought, insofar as they can be known, to light. 

Here I refer primarily to one of these cognitive-historical studies: David Good- 
ing's Experiment and the Making of Meaning, which draws on nineteenth-century 
natural philosopher Michael Faraday's meticulously detailed Diary, comprising 
handwritten notes and diagrams detailing the progress of his experiments (Faraday 
1932-1933; cf. Gooding and James 1985). 

Gooding distinguishes three phases of exploratory enquiry in the natural sci- 
ences, of which only the first is directly relevant here: the interactive manipulation 
of phenomena. + Hans-Jörg Rheinberger usefully describes it as combinatorial play: 
*an exploratory movement, a game in which one plays with possible positions, 
an open arrangement... a game of combinations still unrestricted by the rigorous 
limits of stringent compatibility" with established findings ([2006] 2010, 246-247; 
cf. Steinle [2005] 2016, 1-3) The crucial matter is the experimenter's agency in play 
against the ambiguity and uncertainty inherent to exploration of the coupling in 
which the enquirer and the subject of enquiry meet. 

Gooding’s keyword for this shifting, dynamic coupling and its product is ‘con- 
strual': more action than thing but sometimes both, a phenomenon in the active 


13 Note Hacking's “Introductory Essay” (Kuhn [1962] 2012, vii-xxxvii); and his “Introduction, 
Rationality" (Hacking 1983, 1-17). 

14 Buchwald (1994, 329). For the study of exploratory experiments overall, see Steinle ([2005] 
2016); Tweney (2013); Nersessian (2008). Examples of case studies are of Antoine Lavoisier (Holmes 
1985), Michael Faraday (Gooding 1990), Heinrich Hertz (Buchwald 1994) and James Clerk Maxwell 
(Nersessian 2002). 

15 Gooding (1990). For an assessment and update to Gooding’s work see Steinle ([2005] 2016), 
esp. Chapter 7. 

16 The natural sciences diverge from the human sciences in the remaining two phases, isolation 
of phenomena from the instruments and actions which produce them, and the shift from "a private 
world of percepts and objects to... a public world of talk about objects." (Gooding 1986, 209; cf. 
Jacob [1987] 1988, 296 f.; Keller 1996) 

17 See esp. Gooding (1986 passim; 1990, xv-xvi, 23, 25—27, 74, 82, 85-88, 115-116, 124-128, 142, 
271; 1992, 102-104). Cf. Tweney (2013). 
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sense of phenomena an experimenter brings to light or makes appear (phaínei). 
Construing is a step-by-step feeling of a pathway, prior to interpretation, towards a 
communicable form of experience it both creates and integrates "into an existing 
system of experimental and linguistic practices understood by others." (Good- 
ing 1990, 80) A construal "cannot be grasped independently of the exploratory 
behaviour that produces it or the ostensive practices whereby an observer tries 
to convey it." (87) If construing is successful against further exploratory work, 
it "creates 'givenness' in experience". (87) Faraday, Gooding writes, *wanted his 
audiences in the great lecture theatre of the Royal Institution to think of themselves 
as being in *Nature's school’.” (1985, 105-106) But Faraday was headmaster. 

In the natural sciences, that is, givenness is secured by the ubiquitous but 
problematic concept of ‘nature’.1* The more fundamentally interpretative disci- 
plines of the human sciences and the arts have no such backstop, but they share 
the site of epistemic formation Gooding calls ‘construal’. The American literary 
scholar Elaine Scarry has suggested that all cultural productions share the creative 
phase of the “made-up”; the natural sciences alone go on to the subsequent phase 
of the “made-real” (1992). Gooding similarly remarks that the creative practices 
of artists and experimenters are “not so different in aim or processes".?? But the 
new is more than novel. Somehow, he comments, the new - we do not know how 
— “retains enough of its anomalous character to promote changes in a... system 
that has apparently assimilated it." (1990, 29) The new serves as a channel for the 
profoundly disruptive: *The new is shocking", Vilém Flusser writes, *not because 
itis one thing and not another, but because it is new."?? Ordinary note-making 
seldom merits such strong language, but some medieval annotations and some 
scientific notebooks certainly do. 

But, having sighted, followed and made inferences from the spoor provided 
by Faraday's notes, Gooding declares that *Construing involves a complex array 
of actions in material and mental space which I shall not attempt to reconstruct. 
Construals mark the limits of my interpretation."?! James Clerk Maxwell likewise 
declared he would proceed no further, as he wrote, toward the "still more hidden 
and dimmer region where Thought weds Fact". *Does not the way to it pass through 
the very den of the metaphysician," he asked, “strewed with the remains of former 
explorers, and abhorred by every man of science?" ([1870] 1890, 216) Perhaps we 
can get no further. But Maxwell had a strategy for advancing research amidst the 


18 Williams ([1976] 1983, 219-224); Lloyd (1991), (2012, 58-59 and 2018); Rochberg (2016). 

19 Gooding (2003, 262); cf. McLeish (2019). 

20 “Das Neue ist entsetzlich. Nicht, weil es so ist und nicht anders, sondern weil es neu ist." 
(Flusser 1997, 125, my trans.) 

21 Gooding (1990, 142); cf. Holmes (2004, 96-98) and Chapter 10. 
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difficulties of great challenges (which serious note-makers also face). His strategy 
was to lay hold of a clear, empirically well-grounded conception from an analogous 
field, “without being committed to any theory founded on the physical science from 
which that conception is borrowed".?? Insistence on “the necessity of systematic 
doubt, of complete mental freedom when confronted by generally held theories”, 
as Claude Bernard insisted, does not imply ignorance but detachment (Taton 1957, 
44; Bernard 1949, 35-43). 

Maxwell’s requirement, that is, was for a kind of aporia. It was a requirement 
for the ability most economically described by the poet John Keats in a letter to 
his brothers, when “at once it struck me, what quality went to form a Man of 
Achievement ... - I mean Negative Capability, that is when man is capable of being 
in uncertainties, Mysteries, doubts, without any irritable reaching after fact & 
reason” .?3 


4.3 A graffito 


Both preceding examples pose intricate, labyrinthine pathways to be threaded: the 
first (a medieval gloss) devised by a learned scribe to entangle his or her learned 
readers in a spiritual quest; the second (notes on the emergent phenomena of 
electromagnetism) posed by the physical world but crafted by a skilled scientist 
during an exploratory experiment, then communicated to colleagues and the 
public. My third example — a contemporary graffito - is in many respects utterly 
unlike the first two, but I want to make some progress toward picking out the 
common ground.?^ 

The term ‘graffiti’, the editors of Scribbling through the Ages note, “was origi- 
nally ascholarly term coined by the classical archaeologists who excavated Pompeii 
in the nineteenth century to describe an ancient and specialized form of inscrip- 
tion.... The contextually restricted, highly academic origin of the word - as well 


22 Maxwell (1864, 27-28); cf Gooding (1990, 88). I read ‘theory’ in this context to refer to a formal 
statement, usually in mathematical form, not the sort of assumptions or ideas about the world 
one may have, many of them tacit and inchoate; see Gooding (1986, 222); Hacking (1983, 173). 
23 Keats, letter to George and Tom Keats, 21 December 1817, in Keats (2002, 60); cf. Ou (2009); 
Bate ([1939] 2012). The connection with scientific creativity was made by Crawford (1985, 218-220) 
and Ippolito and Tweney (1995, 441). 

24 Much can be learned from discussions of ancient examples; see e.g. the following note and 
Lewisohn (2009, 26 f.). Studies of contemporary graffiti emphasise non-verbal ‘street art’ rather 
than verbal graffiti; see Lewisohn (2009, 30-35) for the development from ‘tagging’ of names 
to non-verbal art, also Mailer (1974) on tag and name; for cultural analysis, Neef (2007); for the 
gestural component, Flusser ([1991] 2014). 
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Fig. 8: A Belfast graffito 


as the realia that go with it — have largely been absorbed into modern street cul- 
ture....”25 In her consideration of medieval glossing Janine Rogers begins by looking 
in the opposite direction, from modern use of the term back to its recognition “as a 
reality of medieval manuscripts" (2018, 175). But which of the many realia are in 
common across the many forms? When planning an implementation of the arts of 
note-making and taking the scholarship of annotation into account, the systems 
designer must of course choose but should have in sight the largest possible field 
of those commonalities. 


25 Ragazzoli, Harmangah, Salvador and Frood (2018, 1-2 [my emphasis]); cf. Baird and Taylor 
(2010). 
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My contemporary graffito is shown in Figure 8 on the previous page, a photo- 
graph I took of a spray-painted remark on a brick wall in Belfast, Northern Ireland, 
in ca. 2010, two years after the financial crash. By then the Troubles were long over, 
though not the seldom-reported sectarian tensions one can find evidence of to this 
day. There are no explicit intricacies in this example, but much is implicit. Surely 
we can detect a sexually tinged insult and threat here to ‘impotent’ British and 
Northern Irish politicians from an unspecified people threatening to ‘rise’, with 
implications within living memory as well as the murals and flags. After the first 
line, however, the words droop, not rise; if you know Belfast, particularly places 
like Edinburgh Street, it is hard to deny that the drooping is meaningful. The writer 
might have been bending over, and so inclined to write in a downward slope, but 
the result communicates anything but rebellious power. Were rubbish-bags there 
when he or she spray-painted the words? 

A whole world and a history, then, are contained in that graffito, confirmed on 
the streets of the city if you know how to look. To me south Belfast is a pleasant 
enough place to live. But I look with different eyes than the author of this graffito — 
until I read it and so get an empathic troubling glimpse of his or her world. 

If, asI think is the case, allis in the long moment of the writing of this graffito, 
then here too we have a coupling. 


5 The challenges of implementation 


I have argued that note-making is best served by a miscellany of relatively primitive 
tools that can be freely picked up and combined to suit the occasion, and that the 
index card (on paper and on screen) is likely to be one of them. How the variable 
process of writing, sorting and reassembling of index cards does what it evidently 
does seems in part to lie in the “den of the metaphysician”, but it is clear that the 
cards' recombinatorial potential plays a large and important role. Can software do 
any better? I am not sure, even after trying out NoteCards and living with Pliny. I do 
not think we can make any assumptions about "the future of reading" (Marshall 
2010, vii). The supposed inevitability of dominance by the eBook is redolent of the 
salesman's hype. 

Will a ‘digital edition’ of, say, Leiden BPL 36 ever substantially improve on 
what the scholar experiences by face-to-parchment (skin-to-skin) or face-to-screen 
confrontation with the manuscript, or by learning to decipher the now standard 
edition of the glosses (O'Sullivan 2010; Figure 9 on the facing page)? In Radiant 
Textuality, Jerome McGann points out that “electronic texts have a special virtue 
that paper-based texts do not have: They can be designed for complex interac- 


Making and Studying Notes — 291 


Fig. 9: The standard critical edition of De nuptiis, Books I-II (O'Sullivan 2010), showing the 
editor's treatment of the relevant passage 


tive transformations." (2001, 81) These, presumably, have been taking place in 
the minds of readers, via the annotated page, for a very long time. Those that 
are algorithmically describable pose no problem, but how about those that are 
not - the construals of textual meaning that bring us again to the verge of the 
metaphysician's den? 

Here I must stop. I leave you with three suggestions regarding implementation. 
The first is to pay critical attention to the sciences of mind and machine: the 
cognitive sciences, especially Psychology; the related cognitive-historical studies of 
experiment since Gooding (esp. Steinle's and Rheinberger's); and the anthropology 
of human-machine interaction (esp. Lucy Suchman's)26 The second is to turn 
from mimesis to alterity, i.e. from imitation of human intelligence by machines 
to exploration of other, differently constituted intelligences, so that we can see 
as clearly as possible in which direction to develop digital aids to annotation. My 
third, last and most adventurous suggestion is to follow Maxwell's lead, that is, to 


26 Suchman 2007; for overview and background Duguid 2012. 
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seek analogical help from uses of combinatorial enquiry wherever it is to be found: 
at home, in the natural sciences and Mathematics, and abroad, from other people, 
in other times, places and cultures. What have people done with counting and 
sorting when, unassisted, they were at a loss to proceed? 
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Georg Rehm 
Observations on Annotations 


Abstract: The annotation of textual information is a fundamental activity in Lin- 
guistics and Computational Linguistics. This article presents various observations 
on annotations. It approaches the topic from several angles, including Hyper- 
text, Computational Linguistics and Language Technology, Artificial Intelligence 
and Open Science. Annotations can be examined along different dimensions. In 
terms of complexity, they can range from trivial to highly sophisticated, in terms 
of maturity from experimental to standardised. Annotations can be annotated 
themselves using more abstract annotations. Primary research data such as, e.g., 
text documents can be annotated on different layers concurrently, which are inde- 
pendent but can be exploited using multi-layer querying. Standards guarantee the 
interoperability and reusability of data sets. The chapter concludes with four final 
observations, formulated as research questions or rather provocative remarks on 
the current state of annotation research. 


Keywords: Evaluation, Levels of Annotation, Markup, Semantic Web, Artificial 
Intelligence, Computational Linguistics, Digital Humanities, Digital Publishing 


1 Introduction 


The annotation of textual information is one of the most fundamental activities 
in Linguistics and Computational Linguistics including neighbouring fields such 
as, among others, Literary Studies, Library Science and Digital Humanities (Ide 
and Pustejovsky 2017; Bludau et al. 2020). Horizontally, data annotation plays 
an increasingly important role in Open Science, in the development of NLP/NLU 
prototypes (Natural Language Processing/Understanding), more application- and 
solution-oriented Language Technologies (LT) and systems based on neural tech- 
nologies in the area of Artificial Intelligence (AI). 

This article reflects on more than two decades of research in the wider area of 
annotation including multi-layer annotations (Witt et al. 2007a,b), the modelling 
of linguistic data structures (Wörner et al. 2006; Rehm et al. 2007b; Witt et al. 2009) 
including hypertext and web genres (Rehm 2002, 2007, 20103), the production 
and distribution of annotated corpora (Piperidis et al. 2014; Rehm 2016; Rehm et 
al. 20202) and the use of metadata, annotation schemes and markup languages 
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(Rehm et al. 2008a,b, 2009; Rehm 2010b). After an initial approximation of a defi- 
nition (Section 2), the chapter provides lessons learned, future research directions 
as well as observations on the scientific and technical process of annotating tex- 
tual data from several angles including Hypertext, Markup and the World Wide 
Web (Section 3), Computational Linguistics (Section 4), Artificial Intelligence (Sec- 
tion 5), Language Technology (Section 6) and Open Science (Section 7). The article 
concludes with an overview of the main conceptual dimensions involved in the 
annotation of textual information (Section 8) and a summary (Section 9). 


2 Definition 


Definitions of the term “annotation” typically focus on either procedural (i.e., 
process-related), technical (i.e., markup-related) or conceptual (i.e., semantics- 
related) aspects, sometimes also combinations of the different layers (Goecke et al. 
2010; Ide and Pustejovsky 2017). The notion we follow in this article is loosely based 
on the concept of Annotation Graphs (Bird and Liberman 2001), which can be used 
to represent an unlimited number of annotation layers, while links between the text 
and annotations can be established in an unrestricted way (Witt et al. 2007b; Ide 
and Suderman 2007). Specifically, we view annotations as secondary research data 
added to primary research data. Annotations are, therefore, part of the metadata 
that also include general information on the primary data (author/creator, modality, 
creation date etc.). Linguistic annotations, then, cover “any descriptive or analytic 
notations applied to raw language data. The basic data may be in the form of 
[...] audio, video and/or physiological recordings [...] or it may be textual. The 
added notations may include transcriptions of all sorts (from phonetic features to 
discourse structures), part-of-speech and sense tagging, syntactic analysis, 'named 
entity' identification, co-reference annotation, and so on." (Bird and Liberman 
2001). The procedure of annotating data can include, among several other variants, 
highlighting and labelling specific segments, commenting upon certain aspects, 
and selecting as well as inserting markup elements (tags) into a text document. The 
design of a concrete annotation scheme typically follows at least two consecutive 
phases: based on linguistic theory or insights, an annotation model is created 
(Pustejovsky et al. 2017) for which, then, a technical representation is developed 
(Ide et al. 2017b). Finlayson and Erjavec (2017) provide an overview of the processes 
and tools involved in the creation of annotations. 
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3 Hypertext, Markup and the World Wide Web 


Annotations have always been an integral concept of hypertext (Nelson 1987) itself 
as well as the World Wide Web. In his seminal piece, “As we may think”, Bush 
(1945) described his vision of the Memex, explaining that the user of the Memory 
Extender “can add marginal notes and comments [...] by a stylus scheme”. And 
Berners-Lee (1989) described, in the original concept note that laid the groundwork 
for what later became the World Wide Web, that one “must be able to add one’s own 
private links to and from public information. One must also be able to annotate 
links, as well as nodes, privately.” While Berners-Lee had this specific idea in mind 
already back in 1989, it took more than 20 years of work for Web Annotations to 
become a web standard proper (see below). 

Linguistic annotations are, procedurally, conceptually, and technically, closely 
linked to markup and markup languages, especially the ones based on XML (Ex- 
tensible Markup Language, Bray et al. 2008), enriched, processed, presented and 
queried with related formalisms such as, among others, XML Schema, XSLT, XPath, 
XQuery, CSS, RDF and OWL. Through their unambiguous, syntactic separation of 
annotations from the primary data, markup languages are a natural candidate for 
linguistic annotations, especially those based on XML, the most widely used meta- 
language for the definition of concrete markup languages using approaches such 
as XML Schema or Document Type Definitions (DTD). One of the most widely used 
annotation systems in Linguistics and Digital Humanities are the TEI guidelines 
(TEI Consortium 2019), initially developed in the late 1980s. The formalisms men- 
tioned above were developed and standardised by the World Wide Web Consortium 
(W3C), an international non-profit organisation founded by Tim Berners-Lee in 
1994 to lead the further development of the World Wide Web’s technical building 
blocks. Just like XML, the W3C’s effort to move from a static, document-centric to 
a Semantic Web also lead to a number of highly influential and innovative devel- 
opments in Linguistics and Computational Linguistics, especially with regard to 
modelling and querying annotations (Rehm et al. 2007a; Farrar and Langendoen 
2010; Chiarcos and Sukhareva 2015). The interface between technical markup 
and linguistic annotations is examined by Metzing and Witt (2010) including the 
interface between HTML and linguistic markup (Rehm 2010a). 

Most stand-alone tools for the annotation of linguistic data, often implemented 
in Java, have by now vanished or, if they are still in use, target a specific niche for 
which a browser-based solution has not been developed yet. Nowadays, actual 
annotation work is typically carried out in the web environment, i.e., in the browser, 
using one of the web-based annotation tools such as, among others, Brat (Stenetorp 
et al. 2012), WebAnno (Eckart de Castilho et al. 2016), INCEpTION (Klie et al. 2018) 
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or CATMA (Meister et al. 2019). Crucially, the textual data that is annotated this 
way may be web data (i.e., HTML documents) that was downloaded or crawled, 
but it is typically not live web data because anchoring annotations to live web 
documents that can change, in a subtle or substantial way, any minute is technically 
challenging. 

The fairly recent W3C standard Web Annotation was developed for exactly this 
purpose, i.e., to enable the annotation of live web data. The standard consists of 
three W3C recommendations. The Web Annotation Data Model (Sanderson et al. 
2017b) describes the underlying annotation data model as well as a JSON-LD seri- 
alisation. The Web Annotation Vocabulary (Sanderson et al. 2017c) underpins the 
Data Model, and the Web Annotation Protocol (Sanderson 2017a) defines an HTTP 
API for publishing, syndicating and distributing Web Annotations. The standard 
enables users to annotate arbitrary pieces of web content in the browser, essen- 
tially creating an additional, independent layer on top of the regular World Wide 
Web. Web Annotations are the natural mechanism to enable web users and readers, 
on a general level, interactively to work with content, to include notes, feedback 
and assessments, to ask the author or their peers for references or to provide criti- 
cism. However, there are still limitations. As of now, none of the larger browsers 
implement Web Annotations natively, i.e., content providers need to enable Web 
Annotations by integrating a corresponding JavaScript library. Another barrier for 
the widespread adoption of Web Annotations are proprietary commenting systems, 
as used, among others, by all major social networks who are keen on keeping all 
annotations (i.e., comments and other types of user-generated content) in their 
own respective silos and, thus, under their own control. 

Nevertheless, services such as the popular Hypothes.is tool (see below) enable 
Web Annotations on any web page, but native browser support, ideally across 
all platforms, is still lacking. In addition to the (still somewhat limited) ability of 
handling live web data, the Web Annotation standard has multiple advantages 
that make it perfectly suited for linguistic annotations. The Web Annotation Data 
Model is very general and can be conceptualised as a multi-layer Annotation 
Graph. Annotations are sets of connected resources, typically an annotation body 
and the target of the annotation. If and when the Web Annotation standard is 
finally available natively in all browsers, conversations between users and content 
creators can take place anywhere on the web in a standards-compliant way, where, 
and this is crucial, the annotations are under the control of the users because 
annotations can live separately from the documents they are pointing to — they 
are reunited and re-anchored in real time. 

The annotation tool developed by the non-profit organisation Hypothes.is 
is by the far the most popular one. It enables taking private notes or publishing 
public annotations. It can be used in collaborative groups, it provides Linked Data 
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connections and works with different formats including HTML, PDF and EPUB. 
It is used in scholarly publishing and as a technical tool for open peer review, in 
research, education and investigative journalism.‘ It can also be used for automated 
annotations, e.g., to tag Research Resource Identifiers (RRIDs). 

With regard to the current state and further development of markup approaches 
and technologies, XML, originally published in 1998 and, since then, in extremely 
widespread use, is no longer actively maintained or developed further within 
W3C. However, there is still a highly active and passionate community interested 
especially in declarative markup. Discussing some of the lessons learned during 
the development of XML, Walsh and Bethan (2018) emphasise the need for a new 
umbrella environment and community initiative for future work on descriptive 
markup: the Markup Declaration. 


4 Computational Linguistics 


The annotation landscape, which consists, generally speaking, of tools and for- 
mats, has had several decades to grow and to mature into an area that is impossible 
to characterise in the context of a short book chapter alone. Many colleagues pro- 
vided general or specific overviews, including, among others, Bird and Liberman 
(2001), Dipper et al. (2004), Metzing and Witt (2010), Stührenberg (2012), Ide and 
Pustejovsky (2017), Biemann et al. (2017), Stede (2018), Neves et al. (2019). In addi- 
tion to a large number of all-purpose and specialised formats (Ide et al. 2017a) such 
as, among many others, TEI, NIF, NAF, LAF, GRAF, TIGER, STTS, FoLIA, there is a 
plethora of editors and tools to chose from, such as Brat, WebAnno, Exmaralda, 
Praat, ELAN, ANNIS, CATMA, INCEpTION and Prodigy as well as many others 
including crowd-sourced approaches. 

Both annotation tools and also annotation formats can be described along a 
number of dimensions and continuums. Annotation schemes range from trivial 
(e.g., marking up single tokens) to complex (enabling semantically deep and nu- 
anced annotations). These often correlate with their annotation task, from easy, 
straightforward and well understood (e.g., annotating named entities) to hard, 
challenging and novel (e.g., the annotation of actors and events in storylines). Ac- 
cordingly, simple annotation tasks, the goals of which can be summarised and 
specified in concise annotation guidelines effectively, typically result in very high 


1 See, for example, the projects presented in the various events of the *I Annotate" conference 
series, which started in 2013: http://iannotate.org (04.02.2020). 
2 https://markupdeclaration.org (04.02.2020) 
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inter-annotator agreement scores while hard, ambitious and challenging tasks 
that may require a certain level of expertise or training, rather result in low inter- 
annotator agreement (Gut and Bayerl 2004; Bayerl and Paul 2007, 2011; Snow et 
al. 2008; Artstein 2017). Finally, simple annotation tasks are typically carried out 
using general all-purpose tools while complex annotation tasks usually require 
specialised or customised tools. 


5 Artificial Intelligence 


Artificial Intelligence (AI) as an academic discipline was founded in the 1950s. 
While it consists of various subfields, by now, it is ubiquituous first and foremost 
due to the recent breakthroughs made in the area of Machine Learning (ML) using 
Deep Neural Networks (DNNs). These have been made possible due to powerful 
supervised but also unsupervised machine learning algorithms, fast hardware 
and, crucially, large amounts of data. This is why the relevance of annotations 
and annotated data sets for AI at large, including Language-Centric AI (Rehm et al. 
2020d), i.e., Computational Linguistics and Natural Language Understanding, has 
increased dramatically in recent years. 

Modern AI methods are data-driven. Supervised learning methods rely on very 
large annotated data sets, many of which consist of primary (language) data and 
secondary annotations, as defined in Section 2.? In fact, data curation and annota- 
tion has become so important that new business models have emerged that revolve 
around the production of structured data for customers who want to make use of 
supervised learning in concrete application scenarios. Some companies employ 
in-house experts for the construction of data sets while others use crowd-working 
approaches.^ Key aspects of any data generation process include the annotation 
speed, the quality and relevance of the annotations, and how meaningful, reliable 
and representative the annotations are. 

With regard to the context of AI-based applications, the line between the con- 
struction of structured data sets on the one hand and the collection of - typically 
user-generated - data points on the other, is blurry, as both can be conceptualised 
as annotations. In the former, language data is annotated with regard to, for ex- 


3 In Natural Language Understanding, DNNs are also used for language modelling, i.e., for 
generating statistical models out of enormous amounts of unannotated language data. These can 
be used for various classification and prediction tasks (Ostendorff et al. 2019). 
4 Forexample, Appen’s current slogan is “Data with a human touch: High-quality data for machine 
learning, enhanced by human interaction” (https://appen.com [04.02.2020]). 
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ample, word senses or intents. In the latter, actual live content is “annotated”, for 
example, by liking a tweet, leaving a five-star rating for a restaurant or comment- 
ing on a news article. All of these activities are annotations that add metadata to 
existing data. Clicking a headline to go to an article or even turning the page in an 
ebook can also be and, in fact, are interpreted as annotations with regard to the 
underlying primary data in question. Increasingly slower page turns in an ebook, 
for example, could be interpreted by the user modelling algorithm as “boredom” 
with the current chapter and may, later on, result in automatically adjusted book 
recommendations. Even the non-action of no longer reading an ebook can be seen 
as an “implicit” annotation. In the future, for certain non-fiction genres it will be 
possible to identify the chapters in which readers lose interest and then to generate 
slightly different versions or paraphrases of those chapters with the intent of not 
losing any readers by keeping their engagement high. In these cases, the original 
human author will compete with the machine in an A/B test, i.e., both variants 
are presented to users in a short experimental phase, while only the statistically 
more effective variant will be used in the long-term. In today’s digital age, users 
of large online applications must be aware of the fact that every single action 
or click they perform, i.e., every single annotation, is recorded, associated with 
their profile, and made use of by user modelling and recommender algorithms, 
including advertisements. 


6 Language Technology 


The applied field of Language Technology (LT) transfers theoretical results from 
language-oriented research into technologies and applications that are ready for 
production use. Linguistics, Computational Linguistics, Psycholinguistics, Com- 
puter Science, AI and Cognitive Science are among the relevant fields made use 
of in LT-solutions. Spell checkers, dictation systems, translation software, search 
engines, report generators, expert systems, text summarisation tools and conver- 
sational agents are typical LT-applications. 

This Section takes a brief look at potential ways how LT as well as AI can 
interface with the Web Annotation technology stack (Section 3). LT can be em- 
bedded in various phases and places of the Web Annotation workflow to address 
and eventually solve a number of common challenges (Rehm et al. 2016). First, 
the web content to be enriched with annotations can be created automatically or 
semi-automatically using Natural Language Generation (NLG) approaches; in fact, 
this is already the case for vast amounts of online content, including online shops, 
weather reports, and articles about sport events. Second, the web content can be 
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automatically analysed and then annotated using LT, for example, for the purpose 
of generating an abstract of a longer article using automated text summarisation 
and then presenting the article to users in the form of an annotation. Third, the 
content of the actual annotations, potentially made by many different users, can be 
analysed using LT, for example, for the purpose of mining the feedback of the users 
or readers for sentiments and opinions towards the primary content, which may be 
a product description, a news article on a breaking event or a discussion of a topic 
of high social relevance. In that regard, web annotations are also - just like blogs, 
online videos, online photos — User-Generated Content (UGC). Currently, with 
individual silos containing UGC, it is complex, challenging and costly to perform 
Social Media Analytics and Opinion Mining at scale due to the various formats 
and heterogeneous sources. A centralised approach based on Web Annotation 
would simplify such text mining approaches significantly, also enabling a much 
broader and more varied analysis of opinions regarding, among others, commer- 
cial products, societal challenges, political trends and misinformation campaigns 
(Moreno-Schneider et al. 2017; Rehm 2018; Rehm et al. 2018a,b). 

The Web Annotation standard is based on the notion of stand-off annotation, 
i.e., the annotations are not embedded inline within the actual primary data in the 
form of, e.g., XML elements, but stored indepedently from the primary data. This 
approach enables overlapping annotations, i.e., stand-off annotations do not have 
to adhere to the rather strict requirements regarding the tree structure imposed 
by the XML standard. Instead, stand-off annotations make use of a pointing or 
linking mechanism so that an annotation is anchored to or linked to a certain 
sequence of primary data. This (important) advantage comes with a computational 
cost, though, because each stand-off annotation needs to be explicitly anchored 
at processing time. In our recent and current research projects? we use a similar 
approach, the NLP Interchange Format (NIF, see Hellmann et al. 2013). NIF was 
developed especially for LT applications and is based on the Linked Data paradigm, 
i.e., RDF and OWL. 

Between the development phase and the deployment phase of an LT-based 
solution, annotation formats can also be mixed. For example, in LYNX, all process- 
ing solutions make use of NIF (Rehm et al. 2019) but during the development and 
training phase of the German Legal NER model we used the CONLL format which 
is a simple, tab-seperated value, i.e., non-XML-based inline annotation format 
(Leitner et al. 2019, 2020). 


5 DKT (http://digitale-kuratierung.de [04.02.2020]) (Bourgonje et al. 2016), QURATOR (https:// 
qurator.ai [04.02.2020]) (Rehm et al. 2020b) and LYNX (http://lynx-project.eu [04.02.2020]) (Rehm 
et al. 2019). 
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7 Open Science 


The umbrella term Open Science denotes the movement to make scientific research, 
data and dissemination accessible to interested stakeholders. It includes a multi- 
tude of different aspects, e.g., publishing open research, pushing for Open Access 
(instead of closed) and encouraging researchers of all fields to publish not only 
their results but also their data for easier verification and reproducibility. Open Sci- 
ence is becoming more and more popular and is, crucially, relevant to the broader 
topic of annotations. If we examine the taxonomy$* produced by the EU project 
FOSTER to describe the different aspects of Open Science, these connections be- 
come immediately apparent: Open Science advocates for Open Data, which should 
not only be open but also annotated using standards, made available using plat- 
forms that are accessible (e.g., Linked Data) and described with metadata and 
semantics including well defined categories and taxonomies. 

One of the key goals of promoting Open Research Data is to enable data re-use 
and, thus, Open Reproducible Research that also includes Open Science Work- 
flows, often made possible by distributing Open Source software and specifying 
the workflows used to arrive at the results published in a scientific article. An- 
notations, the meaning and semantics of which are clearly documented, ideally 
using international standards, are the glue between the software components that 
produce the annotations, annotated open research data, annotation guidelines, 
research data repositories, query mechanisms and scientific publications. 

With the ever growing and maturing technology infrastructure for data- 
intensive research, Open Science will soon become the norm, including the use 
of sustainable repositories for making available research data clearly described 
and annotated using standardised, best-practice approaches, linked to other sets 
of research data, fostering the re-use of the data in the context of new research 
questions. The FAIR Data Principles emphasise, in their procedural order, four 
main aspects of research data, which should be made findable, accessible, in- 
teroperable and re-usable (Wilkinson et al. 2016)." Most of the FAIR principles 
refer to metadata, which can, especially if they relate to primary data, also be 
conceptualised as annotations. The relevant principles are the following ones: 


F2  Dataare described with rich metadata. 
F3  Metadataclearly and explicitly include the identifier of the data they describe. 


6 See https://www.fosteropenscience.eu/foster-taxonomy/open-science (04.02.2020). 
7 See https://www.go-fair.org (04.02.2020) for more detailed descriptions of the principles. 
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A1 (Meta)data are retrievable by their identifier using a standardised communi- 
cations protocol. 

A2 Metadata are accessible, even when the data are no longer available. 

I1 q— (Meta)data use a formal, accessible, shared, and broadly applicable language 
for knowledge representation. 

D  (Meta)data use vocabularies that follow FAIR principles. 

D  (Meta)data include qualified references to other (meta)data. 

R1 (Meta)data are richly described with a plurality of accurate and relevant 
attributes. 

R1.2 (Meta)data are associated with detailed provenance. 

R1.3 (Meta)data meet domain-relevant community standards. 


As can be seen, the FAIR principles — and also Open Science in general - recom- 
mend, at their core, the use of standards for the purpose of enabling or enhancing, 
as much as possible, the findability, accessibility, interoperability and reusability 
of research data (see Labropoulou et al. 2020, for a practical example). While these 
recommendations are important and, thus, to be supported, it is also worth noting 
that especially basic research is about trying and inventing new things, i.e., things 
that have, almost by definition, not been standardised yet. This contradicts, on a 
fundamental level, with the recommendation of using standards as the consensus 
reached within a specific research community to represent, for example, temporal 
expressions in natural language text. The contradiction can be resolved, though, 
if the recommendation is relaxed to the use of established tools and best practice 
approaches as well as the modification and extension of standards. The crucial 
aspect is to document the semantics of the annotation scheme used in a corpus or 
data set. If an established, standardised approach does not work for an emerging 
piece of research, a new approach needs to be created or an established approach 
modified. 

It is safe to predict that Open Science will be transforming research in the next 
years, making it more sustainable, more visible and more transparent. Several 
disciplines have already been following Open Science-like approaches for quite 
a while. On a larger scale, though, Open Science will only be fully possible with 
substantially improved digital infrastructures. Notable initiatives are the European 
Open Science Cloud (EOSC)® and the Nationale Forschungsdateninfrastruktur 
(NFDI)? in Germany. Additionally, we can predict that, soon, robust and large-scale 
services for the annotation of documents will be provided, starting with scien- 


8 https://ec.europa.eu/research/openscience/index.cfm?pg-open-science-cloud (04.02.2020) 
9 https://www.dfg.de/foerderung/programme/nfdi/ (04.02.2020) 
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tific publications, for which it will be possible to annotate and, thus, explicitly 
represent, using standardised metadata schemas and ontologies, their methods 
used or expanded upon, evaluation approaches, data sets as well as findings and 
contributions - this structured set of semantic information associated with one 
research article, as the atomic unit of scientific publication, will be contextualised 
in larger knowledge graphs which will capture the research output of entire scien- 
tific fields, including annotations. Several larger scientific publishing houses are 
already now developing corresponding digital infrastructures to capture the results 
they publish. At the same time, the Open Research Knowledge Graph (ORKG) ini- 
tiative promotes the vision of moving scholarly publishing from a coarse-grained, 
predominantly document-based to a knowledge-based approach by, first, auto- 
matically identifying and extracting and, second, representing and expressing 
scientific knowledge through semantically rich, interlinked graphs (Jaradeh et al. 
2019).!? In a third step, the knowledge contained in the ORKG can be used, for 
example, to compare the approaches followed in different scientific papers on the 
same research question. 


8 Dimensions of Annotations 


The process of adding annotations to a set of primary research data can be concep- 
tualised as the insertion of secondary research data (see Section 2). The secondary 
data added to the primary data typically refers to one or more (often interconnected) 
properties of the primary data that are explicitly marked using syntactically identifi- 
able methods. Figure 1 on the next page shows the general aspects and dimensions 
involved in an annotation in more detail; Ide and Romary (2001) provide a similar 
but more technical view focused upon syntactic annotations. 

An annotation explicitly describes a property of a piece of primary data using 
a tuple that consists of the label of the property in question (e.g., *part of speech") 
and a corresponding value (e.g., *adjective"). An annotation can also include a 
pointer to an abstract, internally or externally represented annotation scheme 
that, typically, specifies the semantics of all possible annotations. This annotation 
scheme, in turn, can be used to constrain or to restrict specific annotations, i.e., 
the «label, value» pair that makes up an annotation. 

Especially when designing a new or modifying an existing annotation scheme 
to address a specific research experiment, several relevant questions need to be 
taken into account, some of which are included in Figure 1 on the following page. 


10 https://www.orkg.org (04.02.2020) 
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Fig. 1: General aspects and dimensions of annotations 


These question pertain, among others, to the conceptual or epistemological nature 
of the specific label of an annotation: on the one hand, this label can denote a 
concept that has been established in a scientific field for decades or it can refer to a 
fairly recent aspect, phenomenon or finding, for which an established term in the 
respective scientific community does not exist yet. Another aspect relates to the set 
of properties that are being described with the help of an annotation scheme: are 
these isolated properties without any inherent structure that governs the sequence 
or distribution of their instantiations (e.g., different types of named entities) or 
does some kind of linguistic or syntactic structure exist on top of the different 
annotations? If the latter is the case, can this structure be explicitly modelled, for 
example, using mechanisms built into XML DTD or XML Schema-based document 
grammars (Maler and El Andaloussi 1996; Megginson 1998)? Can, maybe as an 
additional mechanism on top of the document grammar, an ontology be used to 
describe higher-level semantic concepts? 

The various notions hinted at in Figure 1 lead us to a more abstract aspect 
of annotations: just like primary research data, annotations have various prop- 
erties themselves. Depending on the research question and overall use case, it 
may be important or even necessary to explicitly represent these properties, i.e., 
to annotate annotations. Among this set of properties are the following: annota- 
tor of the annotation (i.e., was it created by a human expert or by an automatic 
process?), annotation layer (i.e., does the annotation refer to the *document struc- 
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ture", “layout”, “syntax”, “semantics”, “information structure" etc.?), confidence 
value (i.e., how confident is the human annotator or automated process that an 
annotation is correct?), timestamp (i.e., when the annotation was added), style 
(i.e., how an annotation is rendered in a certain system) and application scenario 
(i.e., is the annotation primarily meant for human or machine consumption?). It is 
important to note that more structure can be explicitly added even on top of these 
annotations, especially with regard to the relationship and interdependence of the 
various annotation layers. 

Instantiated sets of annotations can be described along various axes and 
dimensions, some of which are rather vague while others are more concrete. 


— Annotator: The actual source or origin of annotations included in a data set, 
for example, one or more automated components, human experts, human 
laypersons, crowd workers etc. This dimension also refers to the methodology 
followed for including the annotations into the primary data. 

— Semantics: The semantics of the annotations, i.e., the nature of the properties 
explicitly and formally described through the annotations, e.g., linguistic 
concepts or aspects relating to document structure, rhetorical structure, genre, 
style, terminology etc. This dimension is connected to the annotation scheme 
used, which could be an experimental scheme developed, e.g., in a research 
project for a novel purpose, or one of the well known annotation schemes and 
standards that have been in use for decades, e.g., TEI. 

— Layers: The nature and interconnectedness of the different annotation layers 
if an annotated data set contains multiple layers. 

- Guidelines: A crucial question with regard to annotation projects primarily 
carried out by humans, relates to the presence of annotation guidelines, espe- 
cially with regard to the specification of concrete examples and exceptions, 
i.e., which concepts to annotate how in a specific context. 

— Research question or application use case: An annotated data set is typically 
associated either with an underlying research question that has motivated 
the construction of a data set or with a concrete annotation pipeline (i.e., 
application use case) that was used to annotate the primary data. 

— Complexity: This dimension refers to the notion that some annotations are 
more complex than others, it is closely related to several other dimensions. 

— Evaluation: Most annotated data sets have been evaluated in some way, e.g., 
with regard to the inter-annotator agreement (if the primary data was annotated 
by multiple annotators). 


Space restrictions prevent us from describing all dimensions in more detail, which 
is why we concentrate on Complexity (Section 8.1) and Evaluation (Section 8.2). 


312 —— Georg Rehm 


8.1 Complexity of Annotations 


In Computational Linguistics and also in the wider Digital Humanities area, several 
fairly detailed annotation schemes and markup languages have been developed 
for the annotation of textual data in the last 30 years. The TEI guidelines are 
probably the most extensive ones - the PDF version of the TEI P5 guidelines (TEI 
Consortium 2019) has a length of almost 2000 pages, in which hundreds of XML 
elements and attributes, grouped into various modules, are described. In stark 
contrast, the annotation schemes used in many current data sets, especially for 
large-scale, data-driven AI approaches that rely on vast amounts of training data, 
are quite shallow and highly generalised. Machine learning approaches perform 
best with large amounts of training data; it is beneficial for the performance of 
the resulting models and classifiers if the number of unique class labels is rather 
small and the number of different examples per class label rather high. Especially 
for environments in which such AI-based classifiers are used in production, the 
corresponding data sets are often created by professional annotation teams or 
companies (see Section 5). In these scenarios and use cases it is not feasible to 
annotate data sets with complex annotation schemes. 

Itis an interesting question for future research if the difference in complexity 
or the “level of sophistication" of different annotation schemes - from a simple set 
of a few labels to highly complex markup languages like TEI P5 - can be measured 
or formally described. To the best of the author's knowledge, there has not been 
any work on this topic so far. Many different data points and statistics about an 
annotation scheme could be exploited for this purpose, e.g., the number of property 
labels (i.e., XML tags), the number of meta properties (e.g., XML attributes), the 
number of free text and predefined values, the presence of inherent structure 
including nesting levels etc. These, and other, statistics could be included in a 
formula that captures the complexity of an annotation scheme; it could also be 
used, together with data such as token/annotation ratio, to model the complexity 
of the annotations contained in a concrete data set. 


8.2 Evaluation of Annotations 


The evaluation of annotations is a crucial dimension of formally describing a data 
set or corpus, especially when it was created for the purpose of training a practical 
tool and also when an emerging annotation scheme was used. In that regard, two 
different aspects can be evaluated that are intricately interrelated: the annotation 
scheme itself and concrete annotations. 
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The evaluation of the validity of an abstract, possibly emerging, annotation 
scheme is typically an iterative process (Dickinson and Tufis 2017; Artstein 2017): 
first, an initial version of the annotation scheme is applied to a small and, ideally, 
representative data set to examine if it is practical and balanced concerning its 
ability to annotate all the characteristics and phenomena it is supposed to be able to 
mark up explicitly. An overarching aspect that should be taken into account when 
developing and iteratively evaluating an annotation scheme relates to the question 
if it models scientific consensus. These initial tests are, later on, repeated with 
more mature versions of the annotation scheme until all requirements, prescribed 
by the respective research question, are met. As the two go hand in hand, these 
initial evaluations typically concern not only the annotation scheme but also the 
annotation guidelines as well as their applicability using a specific annotation tool. 
Important questions regarding the annotation guidelines relate to their length, 
coverage, examples, and exceptions as well as how long it usually takes to train 
annotators so that they can perform an annotation task. 

The result of an annotation task or process can also be evaluated, both quali- 
tatively and quantitatively. In the context of this chapter, the typical approach is 
to compare multiple annotations of the same primary data, created by multiple 
annotators, and to compare their inter-annotator agreement, i.e., how well do the 
various annotators agree when comparing their respective annotations. Multiple 
approaches to calculate inter-annotator agreement exist (Gut and Bayerl 2004; 
Bayerl and Paul 2007, 2011). This analysis is crucial for data and experiment-related 
aspects such as replicability and reproducibility and for measuring the consen- 
sus among the annotators, especially for complex annotation tasks or emerging 
annotation formats. A variation of measuring inter-annotator agreement can be 
described as “intra-annotator agreement”, i.e., the same annotator is asked to 
perform the same annotation task multiple times but under different conditions or 
several days or weeks apart. This approach can also be used to identify weaknesses 
in emerging annotation schemes or guidelines. 


9 Summary and Conclusions 


This article presents various observations on annotations. It approaches the topic 
from multiple angles including Hypertext, Computational Linguistics and Lan- 
guage Technology, Artificial Intelligence and Open Science. Annotations can be 
examined along different dimensions. In terms of complexity, they can range from 
trivial to highly sophisticated, in terms of maturity from experimental to standard- 
ised. Annotations can be annotated themselves using more abstract annotations. 
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Primary research data such as, e.g., text documents can be annotated on different 
layers concurrently (e.g., general segmentation including text structure, coherence 
relations, syntax), which are independent but can be exploited using multi-layer 
querying. Standards guarantee interoperability and reusability of data sets, which 
is especially crucial in terms of Open Science. 

The chapter concludes with four final observations, formulated as research 
questions or rather provocative remarks on the current state of the field. 

Do standards hold back innovative annotation research? Standard annotation 
schemes represent the condensed consensus gathered within a wider research 
community regarding certain phenomena. This class of standardised formats is 
crucial for interoperability and reproducibility. However, one aspect that is often 
neglected concerns the fundamental nature of research itself, which is about 
finding, creating and inventing new things, new pieces of knowledge, new insights, 
including new ways of annotating language data. Especially taking into account 
those annotation schemes that are, both conceptually and also technically, highly 
similar, it is worth emphasising that new breakthroughs require new approaches. 
Focusing on standards too much may hold back research. 

Can we concentrate on annotating live web data instead of dead web data? 
Primary research data is nowadays typically annotated within a web-based envi- 
ronment, i.e., using a dynamic web application that visualises both the primary 
and the secondary research data in a browser. Very often, said primary data is, in 
fact, web data, i.e., text or multimedia data that was either crawled or collected 
using other means from the World Wide Web. Crawling and archiving live web data 
decouples the documents from their natural habitat, which essentially results in 
frozen snapshots of these documents. While this approach has been best practice 
in Computational Linguistics almost since the beginning of the World Wide Web, 
it would be much more interesting to treat the live World Wide Web as a corpus. 
Given that the web technology stack even includes its own annotation approach 
(Web Annotation, see Section 3), we should attempt to treat the whole, live World 
Wide Web as a giant corpus by parsing the whole web and by adding linguistic 
information using the Web Annotation approach, which can then be queried for 
linguistic analyses or for training machine learning models (Rehm 2018; Rehm 
et al. 2018a). To that end, larger collections of web-native Language Technology 
services (Rehm et al. 2020a,b) could be used in high-performance infrastructures 
(Rehm et al. 2020c). 

Is it possible to design a machine-readable packaging format for describing 
annotations? Annotations have different dimensions along which they can be 
described (Section 8). It would be a highly interesting question to examine if it is 
possible to design a compact, machine-readable packaging format for describing 
annotation projects including the annotations themselves as well as the overall 
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approach, main formal aspects of the annotation scheme (including its complexity) 
and the concrete annotations. This is a relevant and important question from the 
point of view of Open Science (and more transparent as well as reproducible and 
interoperable science). The question also relates to machine learning, language 
resources and emerging AI and LT platforms. Soon, these will be able to import a 
data set and use a machine learning toolkit automatically to train a new model 
(Rehm et al. 2020c). In order for this to work fully automatically, we need metadata 
schemes to describe annotated data sets including formal aspects such as their 
annotation schemes and involved dimensions. 

Is the field ignoring decades of valuable annotation science research? Since the 
emergence of the first large corpora and the statistical turn in the early 1990s, Com- 
putational Linguistics has produced a plethora of results and insights regarding 
the annotation of language resources - so much so that Ide (2007) even speaks 
of “annotation science". In the last five years, neural approaches have turned 
out to be very popular in Language Technology, outperforming essentially all of 
the previous methods. Generally speaking, neural technologies require very large 
data sets for training models. Corresponding applications are often generalised 
as classification tasks that are based on large data sets that were annotated with 
only few labels. In many cases, both the classification tasks and also the sets of 
labels or annotations must be described as rather simplistic, often focusing upon 
incremental research challenges. At the same time, many of the recent language 
resources were annotated on a rather shallow level, with only a few highly gener- 
alised and abstract labels, often using crowd-workers who are only able to produce 
large amounts of consistent and high quality annotations if the annotation task is 
rather simple and does not require expert linguistic knowledge or in-depth training 
(Poesio et al. 2017, call these *microtasks"). In short, since the neural turn in ap- 
prox. 2014/2015 we can observe a trend towards simply more and more annotations 
with increasing quantity while ignoring complexity and structure, and also a trend 
towards more and more simple annotations that are cheaper to produce and easier 
to generalise from. Has annotation science perhaps become obsolete? Have the 
lessons and insights learned in the last 30 years become irrelevant, given today's 
popularity and power of neural approaches for processing and, perhaps, finally, 
understanding language? 
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Die Erstellung von Annotationsrichtlinien als 
Community-Aufgabe für die Digitalen 
Geisteswissenschaften 


Ein Vorschlag zu Shared Tasks in den Digital Humanities 


Abstract: The article describes the idea, operationalization decisions and results 
of the first shared task in the Digital Humanities. In the task, different partici- 
pating teams developed annotation guidelines for narrative levels independently. 
Annotation guidelines are a prerequisite for the development of systems for the 
automatic detection of textual phenomena, and thus needed in Computational Lit- 
erary Studies because they allow large-scale studies of narrative phenomena. The 
developed guidelines were compared using a newly developed evaluation scheme 
that brings together the three dimensions of conceptual coverage, applicability 
and usefulness. 


Keywords: Annotation Template, Evaluation, Literature, Methodology, Narratology 


1 Einleitung 


Annotationsrichtlinien für literarische Phánomene sind ein zentrales Desiderat im 
Bereich der textorientierten digitalen Geisteswissenschaften. Die Erstellung von all- 
gemein anwendbaren Richtlinien ist jedoch nur in großen und dementsprechend 
ressourcenintensiven Annotationsprojekten móglich. Darüber hinaus sind einer- 
seits Wissenschaftler*innen, die an umfangreichen Analysen literarischer Texte 
interessiert sind, gefordert, viele Aufgaben zu erfüllen, die außerhalb ihrer Kern- 
kompetenz liegen, wáhrend andererseits Forscher*innen aus der Informatik, die 
sich für die Methodenentwicklung interessieren, selbst annotierte Daten erstellen 
müssen. Shared Tasks - ein Forschungsformat, das in der maschinellen Sprach- 
verarbeitung verbreitet ist — bieten einen Lósungsvorschlag für die genannten 
Problembereiche an. 

Dieser Beitrag fasst das Konzept und die Ergebnisse des ersten Shared Tasks 
in den digitalen Geisteswissenschaften zusammen. Dieser Shared Task begann 
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im Mai 2018 und ist der erste, der die Entwicklung von Annotationsrichtlinien als 
Hauptziel hat.! 

Er befasst sich im Kern mit zwei Aspekten, die in den digitalen Geisteswis- 
senschaften und der computergestützten Literaturwissenschaft wesentlich sind: 
Mit der Aufteilung von Arbeit, Kompetenzen und Aufgaben im interdisziplinären 
Forschungsfeld der digitalen Geisteswissenschaften und mit der intersubjektiven 
manuellen und zuverlässigen automatischen Erkennung von Erzählebenen in 
Erzähltexten. 


1.1 Aufteilung von Arbeit, Aufgaben und Kompetenzen 


Angesichts des aktuellen Stands der rechnergestützten Analyse von narrativen 
Texten? müssen digitale geisteswissenschaftliche Projekte, die darauf abzielen, in- 
haltliche Aspekte solcher Texte in großem Maßstab zu analysieren, selbst technisch- 
methodische Entwicklungen liefern, um die gewünschten Phänomene automatisch 
zu erkennen. Viele dieser Projekte sind daher Kooperationsprojekte zwischen For- 
scher*innen aus den Bereichen Informatik/Natural Language Processing (NLP) 
und Literatur- oder Kulturwissenschaften. Obwohl es eine wachsende Anzahl 
von Tutorials, How-Tos und Lehrbüchern zu verschiedenen Themen der digitalen 
Geisteswissenschaften gibt, bleibt die Bearbeitung solcher digitalen geisteswis- 
senschaftlichen Projekte aus verschiedenen Gründen schwierig: 

(i) Die Entwicklung einer gemeinsamen Sprache, bzw. Terminologie und eines 
gemeinsamen Verständnisses des oft komplexen Forschungsproblems ist eine der 
ersten Hürden, die digitale geisteswissenschaftliche Projekte überwinden müssen. 

(ii) Während sich Informatiker*innen typischerweise nur für den methodi- 
schen Teil interessieren und eine Interpretation der Ergebnisse in Bezug auf die zu 
untersuchenden Texte außer Acht lassen, konzentrieren sich Geisteswissenschaft- 
ler*innen typischerweise auf konzeptionelle Fragen oder Fragen der Ergebnisinter- 
pretation. 


1 Dieser Beitrag basiert im Wesentlichen auf einer zusammenfassenden Darstellung der Special 
Issue von Cultural Analytics, die neben einer ausführlichen Diskussion des Zugangs auch die 
eingereichten Guidelines und ihre Gutachten umfasst: Gius et al. (2019) 

2 Die Performance von NLP-tools ist bei der Analyse narrativer Texte aufgrund deren Eigenschaften 
wie Literarizität und Poetizität üblicherweise weniger gut als es der Stand der Technik für nicht- 
literarische Texte ermöglicht: https://nlpprogress.com (25.12.2019). 

3 Unter anderem vgl. Schreibman et al. (2004); Siemens und Schreibman (2008); Jockers (2014); 
Jannidis et al. (2017); Silva Knuppel und Afanador-Llach (2019). 
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(iii) Daher kónnen die Ziele der Partner*innen auch innerhalb desselben Pro- 
jekts unterschiedlich sein. Wir glauben, dass Formate wie dieser Shared Task 
großes Potential für die digitalen Geisteswissenschaften haben, denn sie erlauben 
es, dass sich die Teilnehmer*innen auf genau das konzentrieren kónnen, worin 
sie geschult wurden: Literaturwissenschaftler*innen kónnen sich auf jene literari- 
schen Phánomene konzentrieren, die sie interessieren und für deren Analyse sie 
über Expertise verfügen. Mit ihren disziplinären Routinen und Textzugängen sind 
Literaturwissenschaftler*innen am besten qualifiziert, narratologische Konzepte 
zu erforschen, zu (re-)definieren und zu veranschaulichen. In einem Shared Task 
nach dem von uns vorgeschlagenen Modell kónnen sie dies tun, ohne sich um 
die Automatisierbarkeit ihrer Ergebnisse zu kümmern. Die da mit dem Automati- 
sierungsanspruch üblicherweise einhergehende Simplifizierung literaturwissen- 
schaftlicher Konzepte ist langerfristig gesehen eine Sackgasse für methodische 
Innovationen, da sich auch die Einsatzmóglichkeiten von Computern stándig wei- 
terentwickeln. 

Die zentrale Voraussetzung für literaturwissenschaftlich anschlussfáhige Ana- 
lysen ist jedoch, dass die konzeptionelle Komplexitát in intersubjektiv anwendba- 
ren Annotationsrichtlinien abgebildet wird und ein Korpus auf Grundlage dieser 
Richtlinien annotiert wurde. Dann kónnen Informatiker*innen oder andere Ex- 
pert*innen für maschinelles Lernen an der automatischen Erkennung der Konzepte 
arbeiten. Literaturwissenschaftliche Expertise ist dafür nicht nótig, weil die An- 
notationen konzeptionelle literaturwissenschaftliche Entscheidungen beinhalten 
(ahnlich wie das bei Standardkorpora aus der natürlichen Sprachverarbeitung der 
Fall ist). 

Bei der Anwendung von maschinellem Lernen in einem digitalen geisteswis- 
senschaftlichen Szenario gibt es oft einen Kompromiss zwischen Leistung und 
Transparenz: Modelle, die eine bessere Leistung erzielen (z. B. neuronale Netze), 
sind oft weniger transparent, während transparente Modelle (z. B. Entscheidungs- 
báume) typischerweise geringere Leistung erzielen. In diesem Fall kónnen sich 
Informatiker*innen aufgrund der empirischen Auswertung für das performanteste 
Modell entscheiden. Um von der Expertise beider beteiligten Felder in der skizzier- 
ten Weise zu profitieren, organisieren wir zwei Shared Tasks, die diese zwei Seiten 
von Annotation — manuelle und automatische Erzeugung - abbilden. Der erste 
Shared Task bildet die Grundlage für eine unabhängige und zuverlässige empi- 
rische Bewertung der späteren automatischen Erkennungssysteme. So kann ein 
Modell, das im zweiten Shared Task gut funktioniert hat, für neue Texte verwendet 
werden, die ähnlich wie die Testdaten sind (was für Literaturwissenschaftler*innen 
wiederum transparent ist). 

Die Entkopplung der Konzept- von der Implementierungsarbeit ermöglicht, 
dass sich jede*r auf das eigene Fachgebiet konzentrieren kann: Literaturwissen- 


328 —— Nils Reiter, Marcus Willand und Evelyn Gius 


schaftler*innen kónnen sich auf die Entwicklung von Annotationsrichtlinien kon- 
zentrieren. Dazu gehóren konzeptionelle Arbeiten ebenso wie ein erster Schritt 
zur Operationalisierung wissenschaftlicher Konzepte (soweit sie intersubjektiv 
anwendbar sind). Bei dieser Arbeitsweise müssen die Literaturwissenschaftler*in- 
nen nicht im selben Projekt, an derselben Universitat oder sogar auf demselben 
Kontinent sein wie die Forscher*innen, die die automatischen Erkennungswerk- 
zeuge entwickeln. Dadurch werden die Eintrittsbarrieren in die computationelle 
Literaturwissenschaft bzw. die Digital Humanities gesenkt, da man nicht in einem 
gut finanzierten interdisziplinären Projekt arbeiten muss, um zu den übergeord- 
neten Zielen beizutragen. Stattdessen kónnen Wissenschaftler*innen in ihrem 
eigenen Tempo und innerhalb ihres disziplináren Paradigmas arbeiten und ihren 
Beitrag leichter in ihre eigene Forschungsagenda integrieren. Darüber hinaus ist 
so eine Zusammenarbeit möglich, die weitgehend ohne die in interdisziplinären 
Kooperationen übliche erhóhte Arbeitsbelastung auskommt. 


1.2 Erzáhlebenen als gemeinsames Phánomen der Shared 
Tasks 


In unserem Vorhaben bescháftigen sich die Teilnehmer*innen mit Erzáhlebenen. 
Die Erkennung von Erzáhlebenen und damit die Identifizierung von kohárenten 
Textteilen ist für die Analyse von Erzähltexten erforderlich, um eine anschließen- 
de, inhaltsbezogene literaturwissenschaftliche Forschung auf der Grundlage der 
gewonnenen Daten (über Handlung, Figuren, erzáhlte Welt, etc.) zu ermóglichen. 
Gleichzeitig sind Erzáhlebenen ein derart ubiquitáres Phánomen, dass sie sehr oft 
nicht einmal in der Literaturwissenschaft explizit adressiert werden. Die automati- 
sche Erkennung von Erzáhlebenen ist daher ein entscheidender Beitrag im Bereich 
der computergestützten Literaturwissenschaft und als Grundlagenforschung zu 
versehen. Darüber hinaus kónnen narrative Ebenen ein Mittler sein, der hermeneu- 
tische und automatische Textanalyse verbindet. Auch wenn die Komplexitat der 
Erzáhlebenen aus literaturwissenschaftlicher Sicht als vergleichsweise gering und 
aus Sicht der natürlichen Sprachverarbeitung als vergleichsweise hoch angesehen 
wird, ist sie für Textanalysen aller Art relevant und damit ein guter Bezugspunkt für 
beide Seiten. Außerdem sind Erzählebenen im Vergleich zu anderen Phänomenen 
ein eher wenig umstrittenes Phänomen in der Literaturwissenschaft. Schließlich 
basieren die Definitionen von Erzählebenen in der Regel auf Textmerkmalen. So 
können beispielsweise Verben der Äußerung und der anschließenden direkten 
Rede textuelle Signale für narrative Ebenen sein, ebenso wie das Vorhandensein 
einer anderen fiktionalen Welt, die wiederum durch die Analyse des Raumes oder 
anderer narrativer Phänomene identifiziert werden kann. Narrative Ebenen sind 
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daher für die Analyse von Texten hilfreich, die eine Abweichung zwischen ihrer 
textlichen Struktur und der Struktur des Erzáhlten aufweisen. 

Wir betrachten narrative Ebenen als eine gute Grundlage für einen Shared Task. 
Ihre wichtigste Eigenschaft für unsere Zwecke ist, dass sie die Lücke zwischen der 
theoretischen Diskussion eines Phánomens und der Anwendung im Text Mining 
schließen können. Um den wissenschaftlichen Nutzen der daraus resultierenden 
automatischen Erkennungsinstrumente zu gewährleisten, müssen narratologische 
Expert*innen in den Prozess der Richtlinienerstellung einbezogen werden. 

Im verbleibenden Beitrag stellen wir anhand der Konzeption und Durchfüh- 
rung des ersten Shared Tasks zur Erstellung von Annotationsrichtlinien für Erzähl- 
ebenen dar, wie dies geschehen kann. Auf Grundlage der Ergebnisse des Shared 
Tasks zur Erstellung von Annotationsrichtlinien wird der noch anstehende zweite 
Shared Task zur Automatisierung der Erkennung von Erzählebenen organisiert 
werden. 


2 Annotationen 


Der Begriff ‚Annotation‘ wird innerhalb der DH-Community mit unterschiedlichen 
Bedeutungen verwendet. In unserem Projekt wird der Begriff für den Prozess ver- 
wendet, bei dem Segmente eines Textes als zu einer definierten Kategorie gehörig 
markiert werden. Wir gehen auch davon aus, dass solche Kategorien vorher festge- 
legt werden (womit wir rein explorative oder erläuternde Annotationen ausschlie- 
ßen) und dass ihre Erkennung auf dem Inhalt des Textes und nicht auf Struktur 
oder Formatierung basiert (womit die Annotation von Textstrukturen wie in TEI 
XML“ nicht im Fokus steht). Dies bedeutet auch, dass das Erkennen dieser Katego- 
rien nicht trivial ist und ein Textverständnis und ein Maß an Textinterpretation 
erfordert. 

Dieses Verständnis der Annotation ist dem linguistischen Begriff der Anno- 
tation von z. B. Koreferenzketten oder semantischen Rollen am ähnlichsten.’ Es 
gibt jedoch eine Reihe von Eigenschaften von Annotationen narrativer Phánome- 
ne, die typisch für die literaturwissenschaftliche Textanalyse sind und für den 


4 http://www.tei-c.org (16.01.2020) 

5 Die Annotation von Koreferenzketten ist die Aufgabe, festzustellen, welche Erwähnungen einer 
Entität sich auf dieselbe beziehen (z. B. in „Ein Haus wurde von Maria gekauft. Petrus liebt sie“, 
das Pronomen „sie“ bezieht sich auf Maria). Die Identifizierung semantischer Rollen würde uns 
sagen, dass Maria das Agens des ersten Satzes ist, und ,,ein Haus“ das Patiens oder das Thema 
(d. h. das, was gekauft wurde). 
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Abb. 1: Iterativer Annotations-Workflow 


Annotations-Workflow berücksichtigt werden müssen. So muss etwa ein Pháno- 
men wie Erzählebenen möglicherweise in einem großen Teil des gesamten Textes 
annotiert werden, wáhrend typische linguistische Phánomene wie semantische 
Rollen auf einzelne Wörter oder Phrasen beschränkt sind. Darüber hinaus ist der 
für die Bestimmung relevante Kontext in der Regel viel größer. Für die linguisti- 
schen Annotationsaufgaben, die in der Vergangenheit Gegenstand von Shared 
Tasks waren, genügt oft ein Kontextfenster von einem einzigen Satz. Literatur- 
wissenschaftliche Annotationen betrachten das gesamte Dokument regelmäßig 
als relevanten Ko(n)text und erfordern daher umfassende Textkenntnis der An- 
notator*innen. Es ist durchaus denkbar (aber nicht einfach umzusetzen), auch 
text-externe Quellen (z. B. sozio-historische Umstánde) als relevanten Kontext zu 
betrachten. Dieser größere Kontext hat das Potenzial, literaturwissenschaftliche 
Annotationen interpretativer zu machen als linguistische. 


2.1 Der Annotationsprozess 


Der Annotationsprozess in computationellen Zugängen mit literaturwissenschaft- 
licher Fundierung ist iterativ und eng mit der Entwicklung einer Annotationsricht- 
linie verbunden. Dieser iterative Prozess ist in Abbildung 1 dargestellt und ist dem 
MATTER-Zyklus áhnlich (Stubbs und Pustejovsky 2013). In jedem Prozessschritt 
erhóht sich nicht nur die Anzahl der annotierten Texte, sondern es wird auch 
die Annotationsrichtlinie verbessert. Natürlich müssen Anderungen in der An- 
notationsrichtlinie berücksichtigt werden. Dies kann dazu führen, dass bereits 
annotierte Textstellen überarbeitet werden müssen. Die Kernidee in diesem An- 


6 Die Annotation von Koreferenzketten ist insofern eher untypisch, da sie als Aufgabe auf Doku- 
mentebene betrachtet wird und volle Textkenntnis erfordert. 
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notationsprozess — mit dem Ziel, kohärente und intersubjektive Annotationen zu 
erzeugen - besteht darin, dass mehrere Annotator*innen zumindest für einen 
Teil der Daten die gleichen Texte parallel annotieren. In der Praxis handelt es 
sich dabei oft um studentische Hilfskräfte, die von den theoretischen Grundla- 
gen vielleicht nur ein rudimentäres Verständnis haben. Die Parallelannotation 
ermöglicht die Überprüfung und den Vergleich von Annotationen und damit die 
Identifizierung von Problemen in der Richtlinie. Dieser Annotations-Workflow 
weist deutliche Parallelen zum hermeneutischen Zirkel auf, der ein allgemeines 
epistemologisches Muster in den Geisteswissenschaften beschreibt. Entsprechend 
hat der Annotations-Workflow (und die iterative Verfeinerung der Annotations- 
vorgaben) Auswirkungen auf die theoretische Ebene und kann produktiv für die 
Entwicklung und Verfeinerung theoretischer Konzepte eingesetzt werden." 


2.2 Annotationsrichtlinien 


Um kohárente und systematische Annotationen zu erzeugen, werden Annotatio- 

nen mit Hilfe von Annotationsrichtlinien durchgeführt. Annotationsrichtlinien 

vermitteln zwischen einem spezifischen theoretischen Verstándnis von Konzepten 

(wie dem einer narrativen Ebene) und der praktischen Annotation des Konzepts in 

Texten. Sie haben mehrere Ziele, die alle auf die Erklárung theoretischer Konzepte 

und/oder den Prozess der Annotation ausgerichtet sind: 

1. Lücken füllen: Theorien sind oft nicht spezifisch genug, um direkt angewendet 
zu werden. Um so abstrakt wie möglich zu sein, vernachlässigen sie in der 
Regel viele Einzelheiten und sind entsprechend unterdefiniert. Diese Lücken 
können von Annotator*innen aber während des Annotationsprozesses nicht 
idiosynkratisch bestimmt werden, sondern müssen durch geeignete Definitio- 
nen nachvollziehbar beschrieben und „gefüllt“ werden.® 

2. Beispiele geben: Im Idealfall befähigt eine Annotationsrichtlinie auch Anno- 
tator*innen, die über keine ausgeprägte literaturwissenschaftliche Expertise 
verfügen, Annotationen durchzuführen. Zu diesem Zweck werden Beispiele 
gegeben und/oder Paraphrasen-/Einfügetests formuliert. 

3. Textbezogene Anpassungen vornehmen: Selbst bei relativ einfachen lingu- 
istischen Phánomenen (z. B. Wortarten) ist nicht zu erwarten, dass die be- 


7 Vgl. Gius und Jacke (2017, 233-254) zur hermeneutischen Annäherung an narrative Zeitphäno- 
mene und Pagel et al. (2018) für eine allgemeine Workflowbeschreibung. 

8 Durch das Füllen der theoretischen Lücken wird zwangsläufig ein Reflexionsprozess in Gang, 
der natürlich ebenso beabsichtigt ist. Dieser kann als Neben- oder Hauptprodukt gesehen werden, 
Richtlinien sind aber nicht der Ort dafür um die Ergebnisse davon festzuhalten. 
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stehenden Annotationsrichtlinien allumfassend sind, da die Variabilitát und 
Kreativität der menschlichen Sprachproduktion enorm ist und ständig neue 
Texttypen entstehen. Annotationsrichtlinien sind ein Mittel, um Phánomene 
anzugehen, die text- oder genrebezogen sind. 

4. Als Dokumentation fungieren: Schließlich entsteht in den meisten Annotati- 
onsprozessen viel prozedurales Wissen, da Entscheidungen über Grenzfalle 
táglich getroffen werden müssen. Eine Annotationsrichtlinie dient auch als 
eine Art Protokoll, das diese Entscheidungen dokumentiert und für andere 
Forscher*innen nachvollziehbar macht. 


2.3 Bewertung von Annotationen 


Eine móglichst hohe Übereinstimmung zwischen den Annotator*innen ist ein we- 
sentliches Ziel der beschriebenen Art von Annotation: Von zwei Annotator*innen, 
die den gleichen Text mit der gleichen Annotationsrichtlinie annotieren, wird im 
Allgemeinen erwartet, dass sie die gleichen Annotationen erzeugen.? Die Überprü- 
fung von Annotationen im Hinblick auf ihre erzielte Übereinstimmung ist daher 
ein wesentlicher Bestandteil des Analyseschrittes der Annotationen in Abbildung 1 
auf Seite 330. 

Die regelmäßige Diskussion von Annotationsentscheidungen mit allen beteilig- 
ten Annotator*innen ist eine effektive Móglichkeit, sich über die Schwierigkeiten in 
der Richtlinie zu informieren. Die Aufforderung an die Annotator*innen, ihre Ent- 
scheidungen zu erláutern (insbesondere, wenn sie unterschiedlich oder schwierig 
waren), fórdert nicht nur ihre Aufmerksamkeit und Genauigkeit beim Annotieren, 
sondern offenbart auch Missverständnisse und/oder zeigt Bereiche auf, in denen 
die Annotationsrichtlinie verbessert werden kann. 

Darüber hinaus kann die Hóhe der Übereinstimmung zwischen den Anno- 
tator*innen quantifiziert werden. Dies wird als Inter-Annotator-Agreement (IAA) 
bezeichnet, und es wurden zahlreiche Metriken für verschiedene Arten von An- 
notationsaufgaben vorgeschlagen (Fleiss 1971, 420—428; Cohen 2017, 37-46; Four- 
nier 2013, 1702-1712; Yann Mathet, Antoine Widlócher und Jean-Philippe Métivier 
2015, 437-479; siehe Artstein und Poesio 2008 für einen Überblick). Alle Metriken 
zielen darauf ab, ein Gleichgewicht zwischen der beobachteten und erwarteten 
Übereinstimmung herzustellen. Wahrend die erste ausdrückt, wie gut echte Anno- 
tator*innen übereinstimmen, drückt die zweite aus, wie viele Annotationen über- 


9 Esgibt Ausnahmen, insbesondere bei literarischen Texten. In diesen Fállen kónnen mehrwertige 
Textlesungen zu unterschiedlichen Annotationen führen, die einen begründeten Widerspruch 
darstellen. Vgl. Gius und Jacke (2017, 233-254). 
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einstimmend wáren, wenn sie zufállig gemacht würden. Somit wird die tatsáchlich 
beobachtete Übereinstimmung in Bezug zur Schwierigkeit der Annotationsaufgabe 
gesetzt. Der Grund dafür ist, dass es zum Beispiel viel einfacher ist, eine Einigung 
zu erzielen, wenn es nur zwei Kategorien gibt, als wenn es 25 Kategorien gibt. Somit 
ist die erwartete Übereinstimmung für zwei Kategorien hóher als für 25 Katego- 
rien, was das IAA senkt, wenn die beobachtete Übereinstimmung stabil bleibt. Die 
meisten IAA-Metriken liegen im Intervall [-oo; 1]. Werte über Null drücken dabei 
aus, dass die Annotator*innen mehr als nur zufallig übereinstimmen. 

Die Messung des IAA für Aufgaben auf hóherer Ebene ist nicht trivial. Dies liegt 
daran, dass viele dieser Aufgaben tatsáchlich aus mehreren Teilaufgaben bestehen 
und die Annotator*innen mehrere Entscheidungen nacheinander treffen müssen. 
Die Annotation von Eigennamen (named entities) erfordert beispielsweise, dass 
Annotator*innen zuerst ein Segment finden, das ein Eigenname ist, und zweitens 
dieses Segment einer bestimmten Kategorie zuordnen, wie z. B. Person oder Ort. 
Die IAA-Metrik muss entweder beide Entscheidungen berücksichtigen, was die 
genaue Berechnung komplex macht, oder vereinfachende Annahmen verwenden 
(z. B. um überlappende Spannen zu ignorieren). 

In der NLP wird das IAA oft auch als Obergrenze für die Maschinenleistung 
angesehen. Wenn Menschen nur bis zu einem gewissen Grad übereinstimmen, 
kónnen wir nicht erwarten, dass Maschinen bessere Ergebnisse erzielen. 


2.4 Das Konzept der Erzáhlebenen im Shared Task 


Für diesen Shared Task haben wir keinen theoretischen Hintergrund für die Kon- 

zepte der narrativen Ebene festgelegt. Stattdessen wurden die Teilnehmer*innen 

ermutigt, den Ansatz zu wáhlen, den sie für angemessen hielten. Wir haben auf der 

Homepage des Shared Tasks eine grundlegende Erklarung sowie Lesevorschlage 

(kategorisiert als einleitend, grundlegend oder fortgeschritten) gegeben,!? aber 

wir haben absichtlich keinen der Ansátze priorisiert. Daher konnten die Teilneh- 

mer*innen jede (oder sogar keine) narratologische Theorie als Grundlage für die 

Operationalisierung in ihrem Leitfaden verwenden. 

Es gibt mehrere Gründe für diese Entscheidung: 

a) Obwohl es in der Narratologie nur wenige etablierte Ansätze für narrative 
Ebenen gibt und sich die meisten von ihnen überschneiden, gibt es keinen 
Konsens über das Konzept der narrativen Ebene. Narratolog*innen neigen 
dazu, starke und unterschiedliche Meinungen über die Art der Erzählebenen 


10 Für die vollstándige Liste siehe: https://sharedtasksinthedh.github.io/levels/ (16.01.2020) 
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b) 


c) 


zu haben, und für die meisten verfügbaren Theorien gibt es gute Argumente. 
Daher gibt es keine a priori Möglichkeit, das am besten geeignete Konzept für 
die Ebenenannotation auszuwählen. 

Wie in vielen geisteswissenschaftlichen Disziplinen gibt es kein etabliertes 
Verfahren zur Identifizierung der ‚richtigen‘ Theorie unter den nebeneinander 
existierenden Ansátzen. Die Vorstellung, dass etwas richtig, wahr, objektiv 
usw. ist, ist kaum mit dem disziplináren Paradigma oder der Matrix der Geistes- 
wissenschaften vereinbar. Innerhalb des geisteswissenschaftlichen Paradig- 
mas existieren Theorien und Interpretationen typischerweise nebeneinander 
und kónnen sich sogar widersprechen. Diese Vielfalt ist den Geisteswissen- 
schaften und ihrer oft stark interpretativen Analyse von mehrdeutigen und 
vielschichtigen menschlichen Artefakten geschuldet. Da der Gesamtprozess 
des Verstehens komplex ist und seine Teile nicht vollstándig verstanden sind, 
kann die Beschránkung der Analyse eines Artefakts auf die Verwendung be- 
stimmter Theorien zu einem vorzeitigen Ausschluss von Ansátzen führen, die 
relevante Erkenntnisse liefern. Die Beschránkung der narrativen Ebenenana- 
lyse auf einen Ansatz hátte daher bedeutet, den Prozess zu ignorieren, durch 
den theoretische oder methodische Ansátze in der Literaturtheorie entwickelt 
wurden und werden. 

Annotationsrichtlinien spielen in der zeitgenóssischen Narratologie kaum eine 
Rolle, und die Annotierbarkeit wird derzeit nicht regelmäßig berücksichtigt. 
Aus narratologischer Sicht ist die reine Richtlinienerstellung wahrscheinlich 
nicht so interessant wie die Diskussion/der Vergleich von narratologischen 
Theorien. Von Anfang an war jedoch klar, dass die Beteiligung von Narratolo- 
gieexpert*innen für diesen Shared Task von größter Bedeutung sein würde. 
Daher sollte das Einbeziehen verschiedener theoretischer Ausrichtungen auch 
das Interesse von Narratolog*innen wecken, die neu in der Entwicklung von 
Annotationen sind. 


Vor diesem Hintergrund war die Offenheit im Bezug auf Theorien für den Prozess 
auf mehreren Ebenen von Vorteil. Am wichtigsten war, dass wir uns an das Para- 
digma der Geisteswissenschaften halten und gleichzeitig einen Rahmen für die 
Erforschung und Erprobung von Theorien in diesem ersten Shared Task zur Richt- 
linienentwicklung schaffen konnten. Dies gewährleistet eine höhere Relevanz der 
Ergebnisse der Automatisierung für die Anwender*innen. 
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3 Der Shared Task zur Erstellung von 
Annotationsrichtlinien 


3.1 Shared Tasks in der maschinellen Sprachverarbeitung 


Shared Tasks sind ein etabliertes Forschungsformat innerhalb der Natural Lan- 
guage Processing (NLP). Die zentrale Idee ist, dass mehrere Teilnehmer*innen 
versuchen, die gleiche Aufgabe der Organisator*innen zu lósen (z. B. automati- 
sche Vorhersage einer Wortart). Die Lósungen werden dann auf dem gleichen 
Datensatz mit der gleichen Metrik bewertet und sind damit direkt vergleichbar. 
Im Allgemeinen funktioniert ein Shared Task wie folgt: Die Organisator*innen 
veróffentlichen einen Call for participation, der die Aufgabe sowie den zugehórigen 
Datensatz detailliert beschreibt. Kurz darauf veróffentlichen die Organisator*in- 
nen einen Entwicklungs- und/oder Trainingsdatensatz. Der Datensatz enthält 
so genannte ‚Goldinformationen‘, d. h. die zu identifizierenden Kategorien sind 
bereits mit Annotationen versehen. Dieser Datensatz wird dann von den Teilneh- 
mer*innen verwendet, um Systeme zu entwickeln/trainieren, die die definierte 
Aufgabe automatisch lósen. Nach mehreren Monaten Entwicklungszeit veróffent- 
lichen die Organisator*innen einen zweiten Datensatz ohne die Annotationen: 
die Testdaten. Die Teilnehmer*innen wenden ihre Systeme auf den Testdatensatz 
an (typischerweise innerhalb einer Woche) und senden die von ihren Systemen 
gemachten Vorhersagen an die Organisator*innen. Die Organisator*innen werten 
dann die Vorhersagen aller Systeme mit dem gleichen Auswertungsskript und mit 
den gleichen Referenzdaten aus. Danach kann ein Ranking der Systeme erstellt 
werden, und es wird ein Workshop durchgeführt, um die verschiedenen Systeme 
vorzustellen und die Ergebnisse zu diskutieren. 

Parra Escartin et al. (1971, 66-73) diskutieren mehrere Gründe für die Beliebt- 
heit und den Erfolg von Shared Tasks in der maschinellen Sprachverarbeitung: 
Sie fórdern nicht nur die Entwicklung in einem bestimmten Bereich, sondern er- 
möglichen auch den direkten Vergleich zwischen den Systemen. In Shared Tasks 
haben sich eine Reihe von De-facto-Standards entwickelt (z. B. das weit verbrei- 
tete CoNLL-Format zur Speicherung annotierter Daten). Darüber hinaus wurden 
zusammen mit den Shared Tasks kuratierte Datensätze erstellt und anschließend 
zur Verfügung gestellt. 
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3.2 Shared Tasks in den Digital Humanities 


Da sich die Forschungspraktiken, Ziele und nicht zuletzt die Forschungsgemein- 
schaften in der NLP und der Literaturwissenschaft deutlich unterscheiden, wird 
die direkte Anwendung des NLP-Modells nicht funktionieren. Deshalb haben wir 
das Verfahren mehrfach angepasst. Die beiden Shared Tasks haben unterschied- 
liche Ziele, Datensátze und Zielgruppen, konzentrieren sich aber beide auf das 
Phánomen der narrativen Ebenen. Das Ziel von Task 1ist die Erstellung von Annota- 
tionsrichtlinien, die dann verwendet werden, um ein großes Korpus zu annotieren, 
das als Trainings-/Testdaten in Task 2 verwendet werden soll. Diese ist ein ,norma- 
ler‘ Shared Task mit dem Ziel, Systeme zu entwickeln, die automatisch narrative 
Ebenen erkennen. 


3.2.1 Der Shared Task 1: Systematische Analyse von narrativen Texten durch 
Annotation (SANTA) 


Im ersten Shared Task stehen die Herausforderungen der Konzeption und Definiti- 
on von Erzáhlebenen sowie deren manuelle Anwendung auf Texte im Mittelpunkt. 
Auf unserer Webseite haben wir auch einen „How to“-Artikel veröffentlicht, der 
den obigen Annotationsworkflow erklart. 

Um die Entwicklung allgemeiner Richtlinien zu fórdern, haben wir frühzeitig 
beschlossen, dass die Richtlinien an einem bis auf das Genre nicht náher spezi- 
fizierten Korpus getestet werden sollten. Jede*r Teilnehmer*in musste also die 
Richtlinie schreiben, ohne die genauen Texte zu kennen, auf die sie am Ende ange- 
wendet werden würde. Um die Vergleichbarkeit der Richtlinien zu gewáhrleisten, 
musste jedoch eine gewisse Homogenitat des Korpus erreicht werden. Wir haben 
den Teilnehmer*innen daher ein Entwicklungskorpus zur Verfügung gestellt, das 
sie bei der Erstellung der Richtlinien verwenden kónnen. Dieser Aufbau ist inspi- 
riert von der Unterscheidung zwischen Entwicklungs-, Trainings- und Testdaten, 
die beim maschinellen Lernen verwendet wird (vgl. Witten und Eibe 2005, 144 ff.). 

Überlegungen zum Korpus. Das Korpus wurde zusammengestellt, um móglichst 
viele der vorgeschlagenen Ebenenphánomene abzudecken. Es ist in Bezug auf 
Genre, Erscheinungsdatum und Textlänge heterogen.” Die Repräsentativität (was 
auch immer das für die Literatur bedeutet) war jedoch kein Leitprinzip. Alle Texte 
wurden sowohl auf Englisch als auch auf Deutsch zur Verfügung gestellt, einige 


11 Genres: Anekdote, Fabel, Volksmárchen, literarisches Márchen, Roman, Novelle, Erzáhlung, 
Kurzgeschichte. Erscheinungsdatum: Die meisten Texte stammen aus dem 19. und 20. Jahrhundert. 
Textlänge: maximal 2000 Wörter. 
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davon sind Ubersetzungen aus einer dritten Sprache. Die maximale Lange der Tex- 
te im Korpus durfte 2000 Worter nicht überschreiten. Diese Einschrankung kónnte 
allerdings auch einen Einfluss auf die Verwendung von Erzáhlebenen haben, was 
zu einer Verzerrung unseres Datensatzes geführt hátte. Um diese zu vermeiden, 
haben wir auch ursprünglich lángere Texte in gekürzter Form eingefügt. Dabei 
wurden Passagen weggelassen, die die gesamte narrative Ebenenstruktur nicht 
wesentlich beeinflussen, entsprechend den von uns auf unserer Webseite vorge- 
schlagenen Ebenendefinitionen und unserem eigenen Urteil. 17 Texte wurden als 
Entwicklungskorpus zur Verfügung gestellt, das von den Teilnehmer*innen bei der 
Entwicklung von Richtlinien verwendet werden konnte. Tabelle 1 auf der nächsten 
Seite zeigt die Texte mit einigen Metadaten. Die Texte aus dem eigentlichen An- 
notationsexperiment sind in Tabelle 2 auf Seite 339 zu finden. Alle Texte sind frei 
verfügbar und können über unser GitHub-Repository?? abgerufen werden. 

Parallele Annotationen erstellen. Die Messung des IAA ist ein etablierter Weg, 
um Einblick in die intersubjektive Anwendbarkeit einer Annotationsrichtlinie zu 
gewinnen. Dazu müssen dieselben Texte von mehreren Personen unter Verwen- 
dung derselben Richtlinie annotiert werden. 

Um dies im Shared Task umzusetzen, baten wir jede teilnehmende Gruppe, 
das Testkorpus mit Hilfe der Richtlinie eines anderen Teams zu annotieren. Dar- 
über hinaus haben (bezahlte) studentische Hilfskrafte mit der gleichen Richtlinie 
annotiert. Damit wurde jede Richtlinie dreimal für denselben Text verwendet. 

Workshop. Als Meilenstein im ersten Shared Task wurden alle Teilnehmer*in- 
nen zu einem Workshop eingeladen, der in Hamburg stattfand. Bis auf ein Team 
waren alle physisch anwesend. Die dreitägige Veranstaltung war wie folgt auf- 
gebaut: Ziel des ersten Tages war es, dass alle Teilnehmer*innen die anderen 
Richtlinien besser verstehen. Dies wurde in Form von Kurzprásentationen und 
einer Diskussion zur Identifizierung von Gemeinsamkeiten und Unterschieden 
realisiert. Am zweiten Tag wurden die Richtlinien detailliert ausgewertet. Am 
letzten Tag prásentierten die Organisator*innen die Bewertungsergebnisse sowie 
die Ergebnisse des IAA, worauf eine Gruppendiskussion der Ergebnisse und der 
náchsten Schritte den Workshop abschloss. 


3.2.2 Ausblick: Automatische Erkennung von Erzáhlebenen 


Der zweite Shared Task kann als ‚normaler‘ NLP-Shared Task betrachtet werden 
und soll daher in erster Linie Forscher*innen in der maschinellen Sprachverar- 


12 https://github.com/SharedTasksInTheDH (16.01.2020) 
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Tab. 1: Übersicht über das Entwicklungskorpus 


Titel (orig.) 


Se una notte 
d'inverno un 
viaggiatore 


Mctutenb 


The Child’s 
story 


Die drei Federn 


Das wohlfeile 
Mittagessen 
Der geheilte 
Patient 

Hills Like White 
Elephants 

How the Leo- 
pard got his 
spots 

Beyond the 
Pale 
Unwahrschein- 
liche Wahrhaf- 
tigkeiten 


The Cask of 
Amontillado 
Frankenstein 
or The modern 
Prometheus 

A Haunted 
House 


Autor 


Asop 


Andersen, 
Hans-Christian 


Andersen, 
Hans-Christian 


Calvino, Italo 


Cechov, Anton 
Pavlovič 


Dickens, 
Charles 


Grimm, Brüder 


Hebel, Johann 
Peter 


Hebel, Johann 
Peter 


Hemingway, 
Ernest 


Kipling, 
Rudyard 


Kipling, 
Rudyard 


Kleist, Heinrich 
von 

Lagerlöf, Selma 
Poe, Edgar 


Allen 
Shelley, Mary 


Woolf, Virginia 


Titel (de) 


Der Wolf und 
das Lamm 


Der Rosen-Elf 


Das Liebespaar 


Wenn in einer 
Winternacht 
ein Reisender 


Ein Rächer 


Die Geschichte 
des Kindes 


Die drei Federn 


Das wohlfeile 
Mittagessen 
Der geheilte 
Patient 

Hügel wie wei- 
ße Elefanten 
Wie der Leo- 
pard zu seinen 
Flecken kam 
Jenseits des 
Blassen 
Unwahrschein- 
liche Wahrhaf- 
tigkeiten 
Unter den 
Kletterrosen 
Das Fass des 
Amontillado 


Frankenstein 


oder Der moder- 


ne Prometheus 


Ein Spukhaus 


Genre 


Márchen 


Volks- 
márchen 


Volks- 
márchen 


Roman 


Kurzge- 
schichte 


Kurzge- 
schichte 


Volks- 
márchen 


Anekdote 


Anekdote 


Kurzge- 
schichte 


Kurzge- 
schichte 


Kurzge- 
schichte 


Anekdote 


Erzáhlung 


Kurzge- 


schichte 


Roman 


Kurzge- 
schichte 


Jahr 


600 


v. Chr. 


1839 


1862 


1979 


1887 


1852 


1819 


1804 


1811 


1920 


1901 


1888 


1810 


1894 


1846 


1818 


1921 


Sprache 
(orig.) 


dk 


ru 


en 


de 


de 


de 


en 


en 


en 


de 


SV 


en 


en 


en 


Kom- 
mentar 


gekürzt 


gekürzt 
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Tab. 2: Übersicht über das Testkorpus 


Titel (orig.) Autor Titel (de) Genre Jahr Sprache Kom- 
(orig.) mentar 
Lenz Büchner, Georg Lenz Novelle 1839 de gekürzt 
BbIvrpbilWwHbIi Cechov, Anton Das Lotterielos Kurzge- 1887 ru 
6unetT Pavlovic schichte 
Das Geschenk Henry, O. Das Geschenk Kurzge- 1905 de 
der Heiligen der Heiligen schichte 
Drei Kónige Drei Kónige 
Kleine Fabel Kafka, Franz Kleine Fabel Märchen 1920 de 
Die blonde Tieck, Ludwig Der weiße literari- 1797 de gekürzt 
Eckbert Egbert sches 
Märchen 
Der Schimmel- Storm, Theodor DerReiter des Novelle 1888 de gekürzt 
reiter weißen Pferdes 
Anekdote aus Kleist, Heinrich Anekdote aus Anekdote 1810 de 
dem letzten von dem letzten 
preußischen Preußenkrieg 
Kriege 
Herr Arnes Lagerlöf, Selma Der Schatz Erzählung 1904 sv gekürzt 
penningar 


beitung anziehen. Das annotierte Korpus wird in Entwicklungs-, Trainings- und 
Testdatensätze unterteilt und den Teilnehmer*innen zu bestimmten Zeitpunkten 
zur Verfügung gestellt. Die abschließende Bewertung erfordert dann, dass die 
Teilnehmer*innen ihre Vorhersagen an die Organisator*innen übermitteln, die 
sie wiederum mit den manuellen Annotationen des Testsets vergleichen. Dieser 
Shared Task soll in der SemEval-Community? organisiert werden, um eine ausrei- 
chend große Teilnehmerzahl zu erreichen. Die Teilnehmer*innen müssen nicht 
mit Literaturwissenschaft, Narratologie oder digitalen Geisteswissenschaften ver- 
traut oder darin erfahren sein, da die Aufgabe und ihre Schwierigkeiten in den 
Annotationen bereits kodiert sind. Das Ergebnis des zweiten Shared Tasks wird 
ein Vergleich von automatischen Systemen sein, die Erzählebenen erkennen. 


13 SemEval hat sich als eine Art „Dach-Organisation“ für verschiedene Shared Tasks etabliert. Im 
Jahr 2019 z. B. wurden zwölf einzelne SemEval-Shared Tasks durchgeführt, von sprachübergrei- 
fendem semantischem Parsing (Task 1) bis hin zur Beantwortung von mathematischen Fragen 
(Task 10): http://alt.qcri.org/semeval2019/ (16.01.2020) 
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4 Zur Bewertung von Annotationsrichtlinien 


Die Bewertung von Annotationsrichtlinien ist ein neues Unterfangen, weshalb 
wir erst ein geeignetes Bewertungssystem etablieren mussten. Auch wenn dieses 
vermutlich nicht universell gültig oder anwendbar ist, glauben wir, dass der Ansatz 
zur Bewertung von Richtlinien für ähnliche Situationen relevant ist und an Projekte 
angepasst werden kann, die andere Práferenzen und Prioritáten haben kónnten. 


4.1 Vorüberlegungen 


Unser Ziel ist es, Anforderungen und Prinzipien aus den Geisteswissenschaften 

sowie aus der Computerlinguistik/NLP zu berücksichtigen. Welche Bewertungsme- 

thode wir auch immer am Ende anwenden würden, es mussten vier grundlegende 

Anforderungen erfüllt werden: 

1. Ranking: Die Methode muss es ermóglichen, die Richtlinien auf einer Rangliste 
zu bewerten. Diese Rangliste muss so klar wie móglich sein und Mehrdeutig- 
keiten vermeiden. 

2. Definiert und explizit: Shared Tasks sind ein Wettbewerb, bei dem die Einrei- 
chungen nach einer Zielfunktion geordnet werden. Diese Zielfunktion muss 
im Voraus und so genau wie móglich definiert werden, damit die Teilneh- 
mer*innen wissen, worauf sie sich einlassen, und damit wenig Spielraum zur 
Anfechtung dieser Bewertung bleibt. 

3. Praktikabel: Die Bewertung sollte innerhalb bestimmter praktischer Grenzen 
durchführbar sein. Konkret strebten wir eine Bewertungsmethode an, die im 
Rahmen eines zweitagigen Workshops durchgeführt werden konnte. 

4. Bewertungskriterien: Die Bewertungsmethode muss unsere Bewertungsstan- 
dards widerspiegeln, d. h. wenn eine Richtlinie Aspekte enthält, die positiv 
bewertet werden, sollte diese Richtlinie hóher eingestuft werden als eine Richt- 
linie ohne solche Aspekte. Die Definition von positiven/negativen Bewertungs- 
kriterien war eine Entscheidung, die die Organisator*innen treffen mussten. 


Diese Anforderungen sind eine Folge des Ziels, Annotationsrichtlinien in einem 
Shared Task zu erstellen. Bei Shared Tasks in der natürlichen Sprachverarbeitung 
geht es darum, den Goldstandard so genau wie móglich zu reproduzieren, der dann 
je nach Aufgabe (Genauigkeit, f-Score, MUC-Score, etc.) unterschiedlich gemessen 
werden kann. Aber es gibt keine ,Grundwahrheit' für Annotationsrichtlinien. Selbst 
die Messung des IAA ware keine optimale Zielfunktion, da es in den Daten Fälle 
geben kann, in denen unterschiedliche Textlesungen möglich sind, die sich aus 
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Abb. 2: Die drei Evaluationsdimensionen, die Forschungsgebiete in den digitalen Geisteswissen- 
schaften verbinden. 


einer Polyvalenz des Textes ergeben. In solchen Fällen würden Meinungsverschie- 
denheiten zwischen den Annotator*innen nicht auf einen Fehler in der Richtlinie 
hindeuten. 


4.2 Das Bewertungsmodell 


Die Bewertung wurde in drei verschiedenen Dimensionen durchgeführt: konzeptu- 
elle Abdeckung, Anwendbarkeit und Nützlichkeit. Abbildung 2 zeigt schematisch, 
wo sich die Bewertungsdimensionen in Bezug auf Forschungsaktivitáten in den di- 
gitalen Geisteswissenschaften befinden. Die Abbildung projiziert die Dimensionen 
auf den Verlauf des gesamten Arbeitsprozesses, von der narratologischen Theorie 
über die Richtlinienerstellung bis hin zu annotierten Texten, und schließlich auf 
die Erkenntnisse, die sich aus der Anwendung der Richtlinie auf einzelne literari- 
sche Texte (manuelle Anwendung) oder ganze Korpora (automatische Erkennung) 
gewinnen lassen. 

Die Dimension der konzeptuellen Abdeckung spiegelt wider, wie viel von ei- 
ner theoretischen Grundlage durch eine Annotationsrichtlinie abgedeckt wird. 
Wenn eine Richtlinie explizit auf einer narratologischen Theorie basiert, kónnte 
sie darauf abzielen, jede Definition, Regel und Ausnahme der Theorie vollstándig 
umzusetzen. Eine andere Richtlinie, die auf der gleichen Theorie basiert, kónnte 
einige Definitionen weglassen oder andere hinzufügen. Diese Dimension befindet 
sich auf der theoretischen Ebene und verbindet die Richtlinien mit der Theorie. 

Die Anwendbarkeit setzt die Richtlinie in Beziehung zum Text und spiegelt wi- 
der, wie gut die Richtlinie die Annotator*innen auf die eigentlichen Annotationen 
vorbereitet, d. h. wie gut die Richtlinie angewendet werden kann. Die Anwend- 
barkeit einer Richtlinie kann beispielsweise durch durchdachte Beispiele, eine 
klare Struktur und/oder einen sorgfältigen Gebrauch der Terminologie erhöht 
werden. Die Dimension der Anwendbarkeit umfasst auch die erreichte Kohärenz 
und Systematik in den Annotationen. 
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Schließlich bezieht sich die Dimension der Nützlichkeit auf die Anwendungs- 
möglichkeiten und das Verständnis des annotierten Textes: ‚Anwendungsmög- 
lichkeit‘ umfasst in diesem Fall sowohl nachfolgende Analyseschritte als auch 
Korpusanalysen, während ‚Verständnis‘ sich auf eine hermeneutische Interpretati- 
on des Textes bezieht, die die Annotationen berücksichtigt. Unter der Annahme, 
dass Korpora gemäß der Richtlinie annotiert werden (entweder manuell oder, 
im Falle großer Korpora, automatisch), spiegelt diese Dimension wider, wie auf- 
schlussreich die damit entstehenden Annotationen sind, d.h. wie ‚viel‘ Einblick 
sie erlauben. Der Nutzen dient der Bewertung der Erkenntnisse, die durch die 
Untersuchung eines annotierten Textes oder Korpus gewonnen werden. 

Die drei Dimensionen ermöglichen eine ausgewogene Bewertung von Richt- 
linien mit unterschiedlichen fachlichen und wissenschaftlichen Hintergründen, 
Zielen und Verständnissen narratologischer Konzepte. Wenn man sich nur aufeine 
der Dimensionen konzentriert, wird die Punktzahl in mindestens einer anderen 
verringert: Ein Leitfaden, der sich ausschließlich mit narratologischer Theorie 
befasst, könnte in der ersten Dimension eine hohe Punktzahl erreichen, wird aber 
in der zweiten Dimension schlecht abschneiden, da reine Theorie nicht gut an- 
wendbar ist. Die Optimierung der Anwendbarkeit könnte zu Richtlinien führen, die 
alles oder nichts als erzählerische Ebene definieren und somit nicht sehr nützlich 
sind. Schließlich wird die blinde Optimierung des Nutzens zu Richtlinien führen, 
die nichts mit der narratologischen Theorie zu tun haben. Die Herausforderung, 
die dieser Shared Task für die Teilnehmer*innen darstellt, besteht also darin, ein 
Gleichgewicht zwischen den drei Dimensionen herzustellen. 

Es ist anzunehmen, dass eine Annotationsrichtlinie in der Regel nicht alle drei 
Dimensionen abdecken muss, um eine nützliche Richtlinie für einen bestimmten 
Zweck zu sein. Richtlinien, die beispielsweise losgelóst oder vóllig unabhángig 
von einem theoretischen Konzept sind, kónnten trotzdem ein relevantes Thema 
ansprechen. Ebenso ist es nicht immer notwendig, sich mit Anwendungen und 
Zielen auseinanderzusetzen, d. h. mit dem Nutzen einer Richtlinie. Da Richtlinien 
und/oder Annotationen auch ein hervorragendes Werkzeug zur Textanalyse sind, 
kann ihre Erstellung ein ausreichendes Forschungsziel sein. 


4.3 Implementierung: Ein Fragebogen für die drei Dimensionen 


Um das dreidimensionale Bewertungsmodell zu implementieren, haben wir jede 
Dimension mit einer Reihe von spezifischen Fragen verknüpft, die für jede Richtli- 
nie zu beantworten sind. Die Fragen stellen verschiedene Aspekte jeder Dimension 
dar und sollten für eine Richtlinie direkt beantwortbar sein. Abschnitt 4 listet jede 
Frage mit einer kurzen Beschreibung auf. 
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Die Fragen wurden den Teilnehmer*innen zur Verfügung gestellt, bevor sie 
ihre Richtlinien eingereicht haben. In der Auswertung wurden sie auf zwei Arten 
verwendet: Erstens lieferten sie einen Leitfaden für die qualitative Bewertung. 
Durch die Befolgung des Online-Fragebogens und die Diskussion jeder Frage für 
jede Richtlinie haben wir sichergestellt, dass bei der Beurteilung für jede Richtlinie 
dieselben Kriterien angewendet werden und dass dieselben Aspekte in der Diskus- 
sion behandelt werden. Dies ist wichtig, um sowohl Fairness als auch Kohárenz bei 
der Bewertung zu gewáhrleisten. Die Diskussion war recht umfangreich und daher 
schwer zu dokumentieren, aber alle Teams bezeichneten sie als sehr hilfreich. Aus 
der Diskussion ergaben sich eine Reihe von Richtlinienverbesserungen, die im 
zweiten Band der Cultural Analytics-Sonderausgabe (Gius et al. 2019) dokumentiert 
werden. 

Zweitens wurden die Fragen quantitativ beantwortet. Jede Frage wurde auf 
einer 4-Punkte-Likert-Skala bewertet, d. h. die Teilnehmer*innen wurden gebeten, 
für jede Richtlinie in jeder Frage Punkte zu vergeben, wobei eine hohe Punktzahl 
wünschenswert war. Wenn also Richtlinie A eine hóhere Punktzahl als Richtlinie 
B hat, gilt sie als die bessere Richtlinie. 

Unsere Bewertung definierte vier Fragen für die Dimensionen der konzeptu- 
ellen Abdeckung und Nützlichkeit und zwei Fragen für die Dimension der An- 
wendbarkeit. Um die Dimensionen gleich zu gewichten, wurden zwei weitere 
Bewertungen zur Anwendbarkeit durch das in das Intervall [1; 4] skalierte IAA 
berechnet. Am Ende erhielt jede Richtlinie in jeder Dimension vier Punkte, die 
zunáchst nach Dimension und dann zu einer Gesamtpunktzahl addiert wurden. 
Jedes Team bewertete alle anderen Richtlinien, was zu sieben Bewertungen pro 
Frage pro Richtlinie führte. 


5 Fragebogen 


5.1 Konzeptionelle Abdeckung 


1. Istdas Konzept der Erzáhlebene explizit beschrieben? 
Erklárung: Narrative Ebenen kónnen beschrieben oder definiert werden. Dies 
hängt von der verwendeten Narratologie ab; einige von ihnen sind struktu- 
ralistisch, andere poststrukturalistisch. Unabhängig vom Modus, ist die Be- 
schreibung/Definition verstándlich und klar? 
1: Ich habe nicht verstanden, was die Richtlinie als „erzählerische Ebene“ 
beschreibt. 


344 — Nils Reiter, Marcus Willand und Evelyn Gius 


2. 


5.1 


4: Ichhabe das in der Richtlinie beschriebene Konzept vollstándig verstan- 
den. 


Basiert das Konzept der Erzáhlebene auf bestehenden Konzepten? 

Erklárung: Die Stufenkonzepte kónnen selbst entworfen, an bestehenden 

Narratologien orientiert oder aus einer bestehenden Stufendefinition kopiert 

werden. 

1: Die theoretische Beziehung des verwendeten Stufenkonzepts ist nicht 
klar. 

4: Es wird deutlich erwáhnt, ob das Stufenkonzept ausgearbeitet ist oder 
(teilweise) auf einer Theorie basiert. 


Wie umfassend ist die Annotationsrichtlinie in Bezug auf Aspekte der Theorie? 

Lasst es etwas aus? 

Erklárung: Wenn die Richtlinie auf einer Theorie oder mehreren Theorien 

basiert, beinhaltet sie dann die gesamte Theorie oder nur Teile davon? Gibt es 

Gründe, warum Aspekte ein- oder ausgeschlossen werden? 

1: Die Richtlinie gibt die Ausweitung ihrer Abhängigkeit von der/den Theo- 
rie/n nicht klar an. 

4: Die Richtlinie gibt den Umfang ihrer Theorienabhängigkeit unmissver- 
ständlich an. 


Wie angemessen wird das Konzept der Erzählebene durch diese Richtlinie in 

Bezug auf die Erzählebenen umgesetzt? 

Erklärung: Narratologien unterscheiden sich in ihrer Komplexität. Zuerst müs- 

sen Sie entscheiden, ob Komplexität oder Einfachheit (in Bezug auf x) wün- 

schenswert ist, dann müssen Sie antworten: 

1: Die Annotationsrichtlinie ist zu einfach oder zu komplex für narrative 
Ebenen und damit nicht ausreichend. 

4: Die Komplexität der Richtlinie ist ausreichend. 


.1 Anwendbarkeit 


Wie einfach ist es, den Leitfaden für Forscher*innen mit narratologischem 
Hintergrund anzuwenden? 

Erklärung: Die Frage stellt eine Bewertung der Benutzerfreundlichkeit der 
Richtlinie für eine*n Annotator*in mit narratologischem Hintergrund dar. 
Indikatoren können sein: Komplexität der Konzepte, Länge des Leitfadens, 


5.1 
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Klarheit der Beispiele, klare Struktur, Schwierigkeit, Sonderfalle zu finden, 

etc. 

1: Selbst als Narratologie-Expert*in musste ich den Leitfaden mehrmals 
lesen und/oder zusätzliche Literatur lesen. 

4: Die Richtlinie ist sehr einfach anzuwenden, und ich wusste immer, was 
zu tun war. 


Wie einfach ist es, den Leitfaden für Forscher*innen ohne narratologischen 

Hintergrund anzuwenden? 

Erklárung: Die Frage stellt eine Bewertung der Benutzerfreundlichkeit der 

Richtlinie dar, wenn wir von jemandem ausgehen, der keinen narratologi- 

schen Hintergrund hat (z. B. Bachelor-Studierende). Indikatoren kónnen sein: 

Komplexität der Konzepte, Lange des Leitfadens, Verwendung der Terminolo- 

gie, Klarheit der Beispiele, Bezugnahme auf Beispiele nur durch Zitat, klare 

Struktur, Schwierigkeit, Sonderfalle zu finden, etc. 

1 Nicht-Expert*innen haben keine Chance, diese Richtlinie zu nutzen. 

4: DieRichtlinie ist sehr einfach anzuwenden und kann von Nicht-Expert*in- 
nen sofort angewendet werden. 


Inter-Annotator-Übereinstimmung: Gamma-Scores (siehe unten) 


Inter-Annotator-Übereinstimmung: Gamma-Scores (siehe unten) 


.2 Nützlichkeit 


Gedankenexperiment: Unter der Annahme, dass die in der Annotationsrichtli- 
nie definierten Erzáhlebenen automatisch auf einem riesigen Korpus erkannt 
werden kónnen. Wie hilfreich sind diese Erzáhlebenen für eine interessante 
Korpusanalyse? 

Erklárung: Diese Frage konzentriert sich auf die Relevanz der Annotationen 
auf Erzáhlebene für die textuelle Analyse großer Textmengen, z.B. für die 
Analyse von zeitlichen Entwicklungen in Bezug auf Erzáhlebenen oder eine 
genrebezogene Klassifizierung von Texten auf der Grundlage von Erzáhlebe- 
nen. 

1: DieAnnotationen der Erzählebenen sind für die Korpusanalyse irrelevant. 
4: Die Annotationen liefern interessante Daten für die Korpusanalyse. 
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2. Wie hilfreich sind sie als Basis für nachfolgende Korpus- oder einzelne Text- 

analyseschritte (die von Erzáhlebenen abhángen)? 

Erklárung: Die Analyse einiger anderer textueller Phánomene hángt von den 

Erzáhlebenen ab, z. B. sollte die Chronologie innerhalb jeder Erzáhlebene ana- 

lysiert werden, bevor sie für den gesamten Text analysiert wird. Diese Frage 

zielt darauf ab, ob die Analyse solcher Phánomene móglich oder sogar besser 

ist, wenn sie auf den Annotationen der Erzáhlebenen basiert. 

1: Die Verwendung der Annotationen der Erzählebenen macht für nachfol- 
gende Analysen keinen Unterschied. 

4: Nachträgliche Analysen sind nur aufgrund der Annotationen der Erzáhl- 
ebenen móglich. 


3. Gewinnen Sie durch die Anwendung der fremden Richtlinie neue Erkenntnisse 
über die Erzáhlebenen in Texten im Vergleich zur Anwendung Ihrer eigenen 
Richtlinie? 

Erklárung: In den meisten Fallen andert sich durch die Annotation eines Textes 

nach einer Richtlinie die Bewertung von textlichen Phänomenen im Text, z.B. 

die Qualität (oder Quantität) von Erzählebenen im Text. 

1: Es macht keinen Unterschied - ich bekomme keine zusätzlichen Erkennt- 
nisse mit der fremden Richtlinie. 

4: Ich bekomme viele neue Erkenntnisse über die Erzählebenen in Texten, 
die auf dieser Richtlinie basieren. 


4. Beeinflusst die Anwendung dieser Richtlinie Ihre Interpretation eines Textes? 
Erklárung: Interpretationen basieren in der Regel auf der Analyse eines Tex- 
tes und damit auf der Beobachtung der Anwesenheit (oder Abwesenheit) be- 
stimmter textueller Phánomene. Daher kann die Anwendung der Richtlinien 
zu Annotationen führen, die für Ihre Interpretation relevant sind, z. B. kann 
die Erkennung einer Erzáhlebene eines bestimmten Typs Ihre Interpretation 
der Zuverlässigkeit eines Erzáhlers beeinflussen. 

1: Meine Interpretation ist unabhängig von den Annotationen, die auf der 
Richtlinie basieren. 

4: Meine Interpretation basiert in erster Linie auf den Annotationen, die auf 
der Richtlinie basieren. 


5.2 Messung der Inter-Annotator-Übereinstimmung 


Bei diesem Shared Task haben wir die von Yann Mathet, Antoine Widlócher und 
Jean-Philippe Métivier (2015, 437-479) entwickelte Metrik y (gamma) verwendet. Ihr 
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Endergebnis kombiniert beobachtete Unterschiede mit zufálligen Unterschieden 
(y wird also anhand von Unterschieden berechnet, wáhrend die meisten Kenn- 
zahlen anhand von Gemeinsamkeiten berechnet werden). Dies geschieht, um 
Bewertungsschemata mit unterschiedlicher Komplexitat vergleichen zu kónnen 
und um zu vermeiden, dass einfachere Schemata bevorzugt werden (wenn das 
Schema einfacher ist, ist die zufallige Übereinstimmung hóher). 

Um Gamma zu messen, verwendeten wir eine Implementierung, die von den 
Entwicklern auf ihrer Webseite zur Verfügung gestellt wurde. Die Art und Weise, 
wie dort erwartete Meinungsverschiedenheiten berechnet werden, führt aber zu 
Problemen, wenn nur wenige Annotationen vorhanden sind. Wenn eine einzelne 
Annotation den gesamten Text abdeckt, was für Annotationen von Erzáhlebenen 
durchaus plausibel ist, gibt es keine Móglichkeit, den Text zu teilen und die Anno- 
tationen neu zu mischen. Um dies zu umgehen, haben wir Gamma sowohl für jeden 
Text einzeln berechnet als auch für alle acht Texte zusammen. Die letztgenannte 
Punktzahl wurde dann für die endgültige Bewertung verwendet. 


5.3 Integration der Bewertungsscores 


Die Endnote für jede Richtlinie wurde wie folgt berechnet: 

1. Fürjede der zehn Fragen wird das arithmetische Mittel über alle Antworten 
berechnet. Daraus ergeben sich zehn Werte, verteilt auf drei Dimensionen: vier 
Fragen/Werte in der ersten Dimension, zwei Fragen/Werte in der zweiten und 
vier Fragen/Werte in der dritten. 

2. Die Gamma-Scores werden auf das Intervall von [0; 1] und als zwei ,virtuelle 
Fragen" in der zweiten Dimension hinzugefügt. Daraus ergeben sich vier Werte 
pro Dimension, jeweils im Intervall [0; 1]. 

3. Injeder Dimension werden alle vier (Mittel-)Werte addiert. 

4. Daraus ergibt sich eine Punktzahl für jede Dimension, sodass die Richtlinien 
entsprechend geordnet werden kónnen. Als Gesamtnote haben wir die Summe 
der Ergebnisse in allen Dimensionen berechnet. 


Damit ergeben sich die Gesamtergebnisse, die in Tabelle 3 auf der náchsten Seite 
dargestellt sind. Die Gewinner-Guideline ist demnach Guideline V.!^ Was auffällt 
ist, dass die Richtlinie gar nicht in allen Kategorien Hóchstpunktzahlen erzielen 
konnte, dafür aber eine gute Balance zwischen den Dimensionen gefunden hat. 


14 Für diese - und alle anderen - Guidelines vgl. Gius, Reiter und Willand (2019). 
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Tab. 3: Finales Ranking der Guidelines 


Guideline Dimension Overall 
Conceptual Applicability Usefulness 
Coverage Punkte Gamma 
Guideline V 14.14 12.09 0.25 12.88 39.10 
Guideline II 11.17 11.89 0.24 12.57 35.63 
Guideline VI 12.33 11.01 0.21 11.37 34.71 
Guideline IV 14.43 7.71 0.05 11.26 33.40 
Guideline VIII 8.10 14.14 0.30 9.12 31.36 
Guideline VII 11.60 9.82 0.23 9.77 31.18 
Guideline I 7.83 10.39 0.18 10.00 28.22 


Guideline III 10.29 6.48 0.07 10.95 27.72 


6 Fazit 


Zum jetzigen Zeitpunkt (November 2019) befindet sich der erste Shared Task in 
den Digital Humanities, der sich die Erstellung von Annotationsrichtlinien für das 
narratologische Phánomen der Erzáhlebene zur Aufgabe gemacht hat, noch in der 
Arbeitsphase, für ein endgültiges Fazit ist es daher zu früh. Ein Zwischenfazit kann 
jedoch durchaus gezogen werden: 

Die Erstellung von Annotationsrichtlinien ist kein Selbstlaufer. Es handelt 
sich gerade nicht um eine ,Reformatierung‘ von existierendem Wissen, das nur in 
anderer Art und Weise (etwa formalisiert) aufgeschrieben wird. Die systematische 
Annotation führt regelmäßig dazu, dass neue (Teil-)Phanomene narratologischer 
Phánomene entdeckt oder alte neu gesehen werden kónnen. Dies ist ein direktes 
Ergebnis der systematischen Anwendung der Richtlinien durch mehrere Annotie- 
rende. Dabei werden die Annotierenden (und damit die Richtlinien) mit Problemen 
konfrontiert, die sonst womóglich unbeachtet geblieben wáren. Umso wichtiger ist 
es, geeignete Formate zu etablieren, die Anreize schaffen, Annotationsrichtlinien 
zu erstellen oder weiterzuentwickeln. Shared Tasks in den Digital Literary Studies 
sind also als Innovationstreiber zu verstehen, und zwar sowohl in technischer wie 
auch in konzeptueller Hinsicht. 
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Frederik Schlupkothen and Karl-Heinrich Schmidt 
‘Commentary’ and ‘Explanatory Note’ in 
Editorial Studies and Digital Publishing 


Abstract: In Editorial Studies, documenting the work of an editor, e.g. by creat- 
ing critical comments and explanatory notes while reconstituting and analysing 
original documents, is a central task. However, a conceptual distinction between 
different types of such annotations is often lacking. This chapter proposes a distinc- 
tion that is based on document theory and modelling approaches that cover the 
digitization and processing of documents. In summary, a distinction is made be- 
tween ‘commentaries’, which justify the determination of the form of a document, 
and ‘explanatory notes’, which assist in conveying a document to an assumed read- 
ership. A technical implementation of the proposed annotation model for critical 
editions is presented on the basis of common document description languages in 
digital publishing. 


Keywords: Commenting, Describing, Linking, Modelling, Digital Edition, Markup, 
Digital Publishing 


1 Introduction 


How a text is annotated by means of ‘commentaries’ and ‘explanatory notes’ is a 
central topic in Editorial Studies, in particular when viewed against the backdrop 
of providing the user of an edition with a means of bridging the temporal gap 
between the context of the creation of a work and its reception (e.g. Plachta 2013, 
122; Martens 1993a, IX; Frühwald 1975a, 17 et passim). In the history of Editorial 
Studies, however, the importance of ‘commentary’ and ‘explanatory notes’ as a 
component of an edition, on the one hand, has been constantly changing; on the 
other hand, the terms ‘commentary’ and ‘explanatory note’ with reference to the 
edited content are not used consistently (cf. Lüdeke 2003). The questions which 
remain to be answered are thus both the question of form — how ‘commentaries’ 
and 'explanatory notes' are to be included (or not) in a published edition — and 
the question of content — what purpose a ‘commentary’ or ‘explanatory note’ is 
to serve in detail. So far, “the required terminological and systematic distinction 
between ‘explanatory notes’ and ‘commentary’ has not been made, so that the 
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synonymous use ofthe terms has become established"! (Section 2). In what follows, 
we propose a distinction between these fundamental terms in Editorial Studies by 
using approaches from document theory (Section 3) which can be implemented 
technically by means of established document description practices from digital 
publishing (Section 4). Consequently, the technical starting point for the treatment 
of annotations and their relation to documents will be, inter alia, methods gen- 
erally intended for XML-based markup languages described in XLink (Maler et 
al. 2010) and XPointer (Maler et al. 2003). The starting point from the perspective 
of Editorial Studies will be a heuristic distinction made by Hópker-Herberg and 
Zeller (1993) in discussing the independence of commentary, including with re- 
spect to the form of an edition. Hópker-Herberg and Zeller (1993) discuss, with 
special reference to historical-critical editions, whether it makes sense *to treat the 
commentary independently and define it alongside the edition, i.e. to distinguish 
between the functions of textual reproduction and commentary, and not to allow 
the requirements of determining the text and those of conveying it to blur and 
merge without prior reflection"? On the basis of this distinction and under the 
umbrella term ‘annotation’, ‘commentary’ will, in what follows, be taken to refer to 
textual representations of the editor's determinative work and ‘explanatory note’ 
to textual representations of the editor's conveying work (Section 5). This will be 
done without any normative claim, but on the basis of arguments from plausibility. 


2 State of research 


While ‘commentary’ and ‘explanatory notes’ enjoyed only minor importance in the 
nineteenth and early twentieth centuries, issues in this area of editorial work have 
regained significance in more recent times and have been addressed with reference 
to developing a general theory. In the course of DFG? symposia in the 1970s, where 
theoretical reflections on commenting were discussed across different projects, a 


1 Our translation of “erforderliche terminologische und systematische Differenzierung von ,Er- 
láuterungen' und ,Kommentar' [...] nicht vollzogen worden, so dass sich ein synonymer Gebrauch 
der Begriffe eingebürgert hat" (Hópker-Herberg and Zeller 1993, 52). 

2 Our translation of “den Kommentar zu verselbstándigen und neben der Edition zu definieren, 
d.h. die Funktionen von Textwiedergabe und Kommentieren zu differenzieren und die Er- 
fordernisse der Ermittlung des Textes und seiner Vermittlung nicht unreflektiert ineinander 
übergehen zu lassen" (Hópker-Herberg and Zeller 1993, 53), our emphasis. 

3 *The Deutsche Forschungsgemeinschaft (DFG, German Research Foundation) is the central, 
independent research funding organisation in Germany." See https://www.dfg.de/en/dfg profile/ 
mission/what. is the dfg/ (17.12.2019) 
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desire for ‘standardization’ was raised, the intention being to curb idiosyncratic 
practices developed in individual projects (see Friihwald et al. 1975b). In addition, 
the plenary conference of the ‘Arbeitsgemeinschaft neugermanistischer Edition’ 
[Modern German Philology Working Group] in 1992 addressed ‘Commenting meth- 
ods and forms of commentary’ to determine general criteria for the purpose and 
form of commentary (Woesler 1993a; Martens 1993a). However, in the literature 
produced in the wake of the above-mentioned conferences, definitions of terms 
and a systematic classification of the variants of ‘commentary’ and ‘explanatory 
notes' with respect to their form and function in the context of an edition remain 
sketchy.“ 

Concerning the status of annotations as part of an edition, Zeller’s develop- 
ment of a ‘modular system’ — in addition to the functional classification already 
described at the outset — provides a way of structuring the components of an 
edition and of classifying these according to different types of editions (Zeller 
1984; Hópker-Herberg and Zeller 1993, 57). In addition, regarding the form? of 
annotations, there is a general consensus in the relevant literature to the effect that 
for ‘commentary’, a distinction can be made between ‘overall commentaries’ (or 
‘macrocommentaries’) and passage-specific commentaries (‘microcommentaries’) 
(e.g. Frühwald 1975a, 30; Martens 1993b, 44). A functional comparison between an- 
notations as ‘places for explaining the arrangement and constitution of a text’ and 
‘places for visualizing the context of creation’ can be found in Woesler (1993b, 20), 
Frühwald (1975a, 23, 29) and Zeller (1984, 306-320). With regard to ‘commentaries’ 
on the constitution of a text, Zeller (1984, 306-320) further distinguishes between 
‘textual interventions for remedying faulty passages’ and ‘textual interventions for 
normalization/modernization’. Finally, for a further distinction between context- 
specific annotations, approaches to structuring based on content can be found in 
the literature. In this context, Kraft (1990, 181) lists the subcategories ‘transmission, 
versions’, ‘metric and linguistic forms and meanings’ and ‘factual explanations’, 
among others. 

Even though the approaches cited will not be used directly for developing a 
terminology here, these reflections can, on the one hand, help lead to important 
distinctions which will be apparent in what follows in determining ways of ref- 
erencing textual foundations, in particular; on the other hand, the state of the 
discussion evidently requires terminological openness, which will be more eas- 
ily manageable the more precisely annotations can be described, particularly for 
textual phenomena. 


4 A detailed survey of the research literature on this topic can be found in Wiesmiiller (2014). 
5 In what follows, we will not specifically discuss the form of annotations in the page layout, but 
limit ourselves to reflections on function and structure. 
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3 Documents 


For the purpose of developing a terminology, we will begin by regarding a document 

as an information object for human observers that can be exchanged and used as 

a unit (ISO/IEC 86132). Following French theory (Pédauque 2006; Salaün 2012), 

we will distinguish between three aspects of this unit: 

- The form aspect (‘vu’) of the document, the key question being: how does an 
observer perceive a document with his/her senses? 

- The content aspect (‘lu’) of the document, the key question being: what does 
an observer as a cognitive agent grasp from the document? 

- The medium aspect (‘su’) of the document, the key question being: how does 
an observer use a document (perhaps as a member of a communication com- 
munity)? 


From the form aspect, headed 'vu' ([what is] seen) in French, a document is de- 
scribed as an object of human perception and understood as a 'unit of carrier 
and inscription'. Accordingly, from a technical point of view, the form aspect is 
concerned e.g. with the provision of reproductions as well as with the logical 
description of documents and their transfer to edited products that may differ 
in layout. Important standards for this are provided by markup languages such 
as HTML (Faulkner et al. 2017), SVG (Watt et al. 2011) or CSS (Rivoal et al. 2015). 
In a text edition, the ‘vu’ aspect is apparent, for instance, in the production of 
facsimiles or in the structuring of documents by means of a markup language (see 
Section 4) which allows a faithful reproduction. 

From the content aspect, headed ‘lu’ ([what is] read) in French, a document 
is described as a knowledge and memory system addressing human thought and 
understanding. An observer has learnt to decipher given symbols (e.g. to read texts) 
and to interpret them (perhaps in a context-dependent way). From the content 
aspect, a document is understood as a ‘unit of representation and meaning’. Thus, 
the content aspect is concerned with making a document intelligible. This generally 
presupposes competences on the part of an editor arising from domain-specific 
socialization or cultural transmission. Technical support for making a document 
accessible may be provided by generating metadata, e.g. in RDF (Raimond and 
Schreiber 2014) or OWL (Patel-Schneider et al. 2012). Conventional text editions 
having a ‘lu’ focus include, for instance, regesta editions.$ 


6 Cf. Sahle (2013, 41): here the ‘lu’ aspect is discussed under ‘Text,’ in a compilation of textual 
terms. 
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From the medium aspect, headed ‘su’ ([what is] known) in French, a document 
is described as a transmitter in space and time. Information is transmitted in a 
document from an author to a reader, perhaps as a means of social practice, and 
may be of an evidential character (e.g. quotation, invoice, final authorized edi- 
tion). From the medium aspect, a document can thus be understood as a ‘unit of 
representation and legitimation’. The medium aspect is thus concerned with the 
— usually context-dependent — use of a document which may be supported by 
annotations. So far, a separate and, ideally, general treatment of this point of view 
from a technical perspective has not yet been elaborated fully: Devlin and Rosen- 
berg (1996, 151 ff.) provide an example, elaborated formally using the methods 
of situation theory, for a document type resembling a questionnaire; a technical 
approach to contextualization of documents by means of e.g. the Historical Con- 
text Ontology (HiCO) is described by Tomasi et al. (2015). Text editions with a ‘su’ 
emphasis include, e.g. various navigation structures such as registers or indexes 
(see Trauth 1994, 125 ff.). 

The distinction between ‘determining’ and ‘conveying’ drawn by Hópker- 
Herberg and Zeller (see above) will now be applied to the distinction between 
‘vu’ and ‘lu’. In what follows, therefore, we will distinguish heuristically between 
‘commentaries’ as annotations for determining the form (‘vu’) and ‘explanatory 
notes’ as annotations for conveying the content (‘lu’). To that end, we will now 
introduce a terminology for structured documents so as to be able to distinguish 
between different annotations on form — concerning individual (textual) content 
portions (hereinafter ‘textual commentaries’) and document structures (hereinafter 
‘structural commentaries’) — as well as content annotations in explanatory notes. 
All forms of commentary and explanatory notes ultimately serve the medial use of 
a document (‘su’) in that they seek to justify or ensure its determination for, or its 
conveyance to, an observer. 


4 Structured documents 


Basically, documents can be structured or unstructured (André et al. 1989): un- 
structured documents offer the observer no clues for identifying the various parts 
of the document (as in the case of a single photograph); with structured documents, 
precisely that is the case (as in a text document having a heading recognizable as 
such, or in the case of lines in a poem in verse form).? 


7 The distinction between structured and unstructured document fragments is e.g. loosely em- 
bedded in Faulkner et al. (2017, Sec. 4.12.4): “The «canvas» element [...] can be used for rendering 
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Listing 1: A logical structure marked up using TEI (Tiger.TEI.xml) 


1 «text» 

2 «body? 

3 «lg type-"limerick" rhyme="aabba”> 

4 <l>There was a young tourist of Riga</l> 

5 «l»Who smiled as he rode on a tiger</1> 

6 <1>They returned from the ride</1> 

7 «l»With the tourist inside</1> 

8 <l>And the smile on the face of the tiger</1> 
9 «/1g» 
10 </body> 
11 </text> 


For developing a terminology concerning structured documents, we will use the 
general principles of document processing in ISO/IEC 8613-2 that are applied in 
latter-day major document formats and procedures of digital publishing. Within 
this standard, two points of view on the form of a document are distinguished by 
which its ‘content portions’ are organized: the logical view and the layout view. 
The logical view describes the structural organization of the content portions 
in (perhaps recursive) part-whole relations. Thus, e.g. a book consists of several 
chapters, each of which can be divided into sections, which may in turn contain 
further sub-sections or paragraphs as logical units. This logical structure can be 
the result of an ‘editing’ process involving the creation and editing of the document 
by an author or editor. The layout view describes the organization of the layout 
components of a document for presenting the content portions on or in an output 
medium; thus, a book is subdivided into pages on which the chapter and section 
headings can be arranged. This layout structure is the result of a ‘layout’ process 
which transfers the logical structure into an edition-specific output structure. 
What the two views have in common are the so-called content portions, which 
may have different content architectures; for planar output contexts, these are often 
full-texts, images, or moving images, that can be marked by its own media type® 
Both structures are modelled strictly hierarchically as a tree and can be described 


graphs, game graphics, art, or other visual images [...]. Authors should not use the <canvas> 
element in a document when a more suitable element is available. For example, it is inappropriate 
to use a <canvas> element to render a page heading”. 

8 These are categories originally specified as Multipurpose Internet Mail Extensions (MIME) types 
(Freed et al. 2013). 
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Listing 2: A layout structure marked up using XSL-FO (Tiger.FO.xml) 


1 <page-sequence master-reference- "oneside"» 

2 «flow flow-name- "xsl-region-body" font-size-"12pt"» 

3 «block» 

4 <block>There was a young tourist of Riga</block> 

5 <block>Who smiled as he rode on a tiger</block> 

6 «block text-indent-"7em"»They returned from the ride 
</block> 

7 «block text-indent-"7em"»With the tourist inside</block> 

8 <block>And the smile on the face of the tiger</block> 

9 </block> 


10 </flow> 
11 </page-sequence> 


e.g. by means of XML-based document markup languages. In what follows, the 
‘Tiger’ limerick, which is known in different variants and is sometimes attributed 
to William Cosmo Monkhouse (Baring-Gould 1967, 107), will be used as an example 
throughout. Listing 1 on the facing page shows one possible logical structuring of 
the limerick using TEI (Burnard and Bauman 2015), Listing 2 a layout structuring 
using XSL-FO (Berglund 2006). 


5 Annotations in critical editions 


For the purpose of characterizing the linkage of especially text documents to 
their textual bases (including alternative readings or variants), such parts of the 
document that refer to a textual basis will hereinafter be referred to as anchored 
parts, consisting of an (anchored) fragment of the document and a reference to 
the textual bases. From the point of view of annotation, there are three basic types 
of direct references to a single textual basis. 

The first case assumes a copying relation between a reference and a textual 
basis, leading to a replication of the sequence of characters identified in the textual 
basis. In terms of reference theory, such a simple reference is often a quotation 
(Schmidt 1992, 111-121). 

The second case deals with a qualified relation between the reference and 
the textual basis. Examples of qualified references include classified procedures 
of correcting a textual basis for the purposes of normalization or modernization, 
which can be regarded as copies with ‘qualified’ modifications. 


358 — Frederik Schlupkothen and Karl-Heinrich Schmidt 


The third case is where, for an editor, a reference is not unquestionably in a 
copying relation to a textual basis, or where the two, in the absence of an annota- 
tion, are not unquestionably in a qualified relation. Standard instances of such 
annotated references are justifications for textual interventions that remedy faulty 
passages. Only this type of reference, in contrast to the two former ones, will be 
considered here as annotative and subject to further distinctions in the following.? 


5.1 Textual commentaries 


Annotations having as their subject a single reference to another document that is 
neither an unquestionably replicative (as in a quotation) nor a classified reference 
(as in a normalized adoption) can be textual commentaries and are understood as 
follows: 


Critical textual commentaries refer to how a sequence of characters is actually arranged by the 
editor within the relevant textual architecture and justify the editor's decision for a specific 
sequence of characters. 

Other (non-critical) textual commentaries relate to identifying parallel passages etc. but do 
not necessarily offer a justification for the chosen sequence of characters. 


Textual commentaries will relate to different aspects (transmission and versions, 
rhyme, metre, grammatical structure, etc.). Thus, in the depicted case in Listing 3 
on the facing page, the variant ‘Riga’ has been strengthened by a phonetic argument 
since, in the fictional editor's opinion, a phonetic value can be used to support 
a textual decision. A terminological differentiation of such aspects of texts will 
be provided by more fine-grained theories of textual commentary which can be 
integrated into an ontology of commentary appropriate to the relevant issue in 
Cultural Studies. Different ontologies of commentary will be designed for different 
editorial projects; these need not necessarily be mutually translatable. 

The proposals put forward so far say nothing about their realization in an edito- 
rial project. All the terminology developed is independent of the difference between 
passage-specific commentaries and overall commentaries, or of the existence of 
an original text. Different presentational options make for a varied applicability 
of the ideas developed. For instance, a textual commentary may be realized by 


9 Unless a single reference refers to different textual bases, these three are the only types of 
reference. Otherwise, this threefold distinction forms the basis for producing extended links to 
several references to textual bases, which in turn can be annotated jointly by an editor (see Schmidt 
et al. 2020). 
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Listing 3: Inline commenting on a reference by means of an XML comment 


1 There was a young tourist of Riga 
2  <!-- used variant "Riga" due to rhyme with "tiger" in line 2 --> 


Listing 4: Standoff commenting on a reference by means of XLink and XPointer 


1 «li id-"text 1" class-"comm text" xlink:type- "extended"» 
<span xlink:type-"arc" xlink:from-"ref" xlink: to="anno”></span> 
<span xlink:type-"locator" xlink:label-"ref" xlink:href-"Tiger. 
TEI. xml#xpointer(string-range(//text/body/lg/1[1], 'Riga')) 7 


</span> 
4 <span xlink:type="resource” xlink:label="anno” xml:lang-"en"» 
5 used variant "Riga” due to rhyme with "tiger” in line 2 
6 </span> 
7 </li> 


inline commenting on the reference (i.e. the comment is embedded in the text). As 
an example, take the following reference emphasized in bold type and between 
*«1--' and ‘-->’ to be a critical textual commentary on the first line of the limerick 
in Listing 3. 

This form of commenting will influence how references are actually marked 
and often also the commenting language used.!? An alternative way of imple- 
menting the same textual commentary by means of standoff commenting (i.e. the 
comment is separated from the text) is shown in Listing 4. Here, an XPointer ex- 
pression marks the reference (line 3) within an XLink declaration that links the 
reference to the commentary (lines 4-6). 


5.2 Structural commentaries 


In contrast to textual commentary, structural commentary is concerned solely with 
the logical structure, both when a document structure is first created and when 
a given document structure is varied, often on the basis of assuming a ‘content- 
related’ coherence between structural components. To begin with, this leads to 
the following general proposal: 


10 Of course, this applies to any form of commenting. 
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Listing 5: Structural commentary regarding the line-based segmenting of a limerick 


1 «li id-"struc 1" class-"comm struc" xlink:type- "extended" 


2 <span xlink:type-"arc" xlink:from-"ref" xlink:to="anno”></span> 

3 <span xlink:type-"locator" xlink:label-"ref" xlink:href-"Tiger. 
TEI.xml#xpath(//text/body/1g/1)) "></span> 

4 <span xlink:type="resource” xlink:label="anno” xml:lang="en”> 

5 The line structure of the limerick is based on a segmenting 

6 into five text sections each beginning with a capital letter 

7 and ending before the following capital letter. Each of these 

8 text segments is allocated to a line <code>1</code>. 

9 </span> 

10 </li> 


Annotations on the logical structure of a document are the subject matter of structural commen- 
taries. 


An important example of a structural commentary is justifying the marking up of 
a paragraph-like area in a textual basis by means of a paragraph element provided 
by the markup language used by the editor. 

If, for instance, the formulation of the logical structure of a document (e.g. by 
a markup) is first made following the discovery of a typescript, this structuring is 
typically justified by a structural commentary. This involves making many deci- 
sions influencing a document’s further processability, in particular with respect to 
substructures of the text sections identified. 

By deconstructing the content of the document into individual ‘content por- 
tions’, a decision is made as to the basic textual segments — not regarding their 
(textual) sequence of characters, but with regard to their segmenting and labelling. 
This is illustrated with reference to the initial limerick in Listing 1 on page 356 by 
the example of a structural commentary given in Listing 5, assuming TEI is used 
as a markup language. 

Furthermore, a superordinate logical structure determines the combination 
of subordinate structures and their labelling and vice versa. This is illustrated by 
the example in Listing 6 on the next page for the limerick presented in Listing 1 on 
page 356. 

A structural commentary always includes the option of a labelling commentary 
solely regarding the labelling or relabelling of an identified structure. It is desirable 
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Listing 6: Structural commentary regarding the line grouping of a limerick 


1 «li id-"struc 2" class-"comm struc" xlink: type=”"extended’> 


2 <span xlink:type-"arc" xlink:from-"ref" xlink:to="anno”></span> 

3 <span xlink:type- "locator" xlink:label-"ref" xlink:href-"Tiger. 
TEI. xml#xpath(//text/body/lg) "></span> 

4 <span xlink:type="resource” xlink:label="anno” xml:lang-"en"» 

5 The five lines <code>l</code> of the limerick are combined 

6 into a group <code>lg</code> in accordance with the genre. 

7 </span> 

8 </li> 


Listing 7: Relabelling of a structural node 

1 <p> 

2 <l>There was a young tourist of Riga</1> 

3 «l»Who smiled as he rode on a tiger</1> 

4 <1>They returned from the ride</1> 

5 <l>With the tourist inside</1> 

6 <l>And the smile on the face of the tiger«/l» 
7. </p> 


to mark this terminologically, as such a commentary can be used to mark instances 
of relabelling without restructuring. This leads us to the following proposal: 


Annotations solely on the labelling of a given structural tree of a document are the subject matter 
of a labelling commentary. 


This too can be illustrated by the following variation of the document tree of the 
limerick in Listing 7, where, again assuming the use of TEI as a markup language, 
the line grouping «1g» is replaced by a paragraph <p> without any structural 
modification. The relabelling is justified by the labelling commentary given in 
Listing 8 on the following page, which uses the given structuring. This therefore 
takes account of a ‘text output’ to be realized in the markup. This is made explicit 
by the above labelling commentary; otherwise it would remain unmentioned and 
possibly problematic. 

As structural modifications can entail labelling modifications and pure la- 
belling modifications do not otherwise modify the structure, labelling commen- 
taries should, for pragmatic reasons, be treated as a subclass of structural com- 
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Listing 8: Labelling commentary regarding the line grouping of a limerick 


1 «li id-"label 1" class-"comm label" xlink:type- "extended" 
<span xlink:type-"arc" xlink:from- "ref" xlink:to- "anno"»«/span» 


w N 


<span xlink:type-"locator" xlink:label-"ref" xlink:href-"Tiger. 
TEI. xml#xpath(//text/body/p) "></span> 
4 <span xlink:type="resource” xlink:label="anno” xml:lang="en”> 
5 The five «code»l«/code» elements of the limerick are not 
6 combined into a <code>lg</code> but a <code>p</code>, as they 
7 are to be laid out at the paragraph level. 
8 </span> 
9 </li> 


Listing 9: New structuring with relabelling 
<p> 
<s>There was a young tourist of Riga 
Who smiled as he rode on a tiger</s> 
<s>They returned from the ride 
With the tourist inside 
And the smile on the face of the tiger</s> 
</p> 


NOOO BP WYN — 


mentaries. If, for instance, within the limerick in Listing 7 on the previous page 
two ‘complete’ sentences are identifiable, a structuring in the manner illustrated 
in Listing 9 can also be regarded as sensible. 

An appropriate commentary on the new structuring in Listing 9 below the level 
of the <p> element also entailing the substitution of the label ‘s’ for ‘I’ is illustrated 
in Listing 10 on the facing page. 

Structural commentaries can be attached to a reference point in the document 
to be created; however, this can be found in the structural tree of the document, 
not in its content portions. Otherwise, a structural commentary always refers to an 
addressable part of the document to be created. Addressing can be done by means 
of separate navigation languages, for instance, as in the above examples, by using 
referencing schemas such as XPath (Fernandez et al. 2010) or XPointer (Maler et 
al. 2002). 
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Listing 10: Structural commentary regarding a new structuring with relabelling 


1 «li id-"struc 3" class-"comm struc" xlink: type=”extended’> 


2 <span xlink:type-"arc" xlink:from-"ref" xlink:to="anno”></span> 

3 «span xlink:type-"locator" xlink:label-"ref" xlink:href-"Tiger. 
TEI. xml#xpath(//text/body/p/s) "></span> 

4 <span xlink:type="resource” xlink:label="anno” xml:lang-"en"» 

5 The two grammatical sentences of the limerick are marked with 

6 <code>s</code>; the otherwise possible line grouping by means 

7 of <code>l</code> is not represented. 

8 </span> 

9 </li> 


5.3 Explanatory notes 


Using the definitions concerning textual and structural commentaries made so far, 
the transformation of a text into a document tree can be justified by an editor with 
reference to given textual bases. 

Where an annotation is not for the purpose of justifying form (‘vu’) but provides 
additional information so as to make accessible what is read (‘lu’) by means of 
‘explanatory notes’, a further type of annotation is present, which according to 
Zeller’s distinction between determining and conveying (see above) can be classed 
as conveying a text. 

A conveying role implicitly or explicitly makes use of an observer model whose 
knowledge base, assuming a certain lack of knowledge, is supplemented by ex- 
planatory notes. Hence the following initial proposal: 


An explanatory note includes anything containing information on the content of a document 
fragment relative to an observer, but programmatically refrains from giving an interpretation. 


With this, ‘new’ information can only be given if the information to be taken from 
the document by the intended set of observers and the information otherwise 
available to that set of observers can be estimated. Unless purely machine-based 


11 The term ‘explanatory note’ is used only as a placeholder here. It fits well with ‘conveyance’ 
in the context of the terminology used here and is also a very good translation of the German 
*Erláuterung'. Of course, other terms are available. 
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Listing 11: Explanatory note to a basal anchor point 


1 «li id-"expl 1" class-"expl" xlink:type- "extended" 
<span xlink:type-"arc" xlink:from-"ref" xlink:to="anno”></span> 
<span xlink:type-"locator" xlink:label-"ref" xlink:href- "Tiger. 
TEI. xml#xpointer(string-range(//text/body/lg/1[2], 'tiger ')) "» 


</span> 
4 <span xlink:type-"resource" xlink:label-"anno" xml:lang-"en"» 
5 The tiger (Panthera tigris) is a big cat found in Asia. 
6 </span> 
7 </li> 


processes are used for estimating the content of a document, this will also partly 
depend on assumptions. This will not be elaborated here. 1? 

For the sake of brevity, explanatory notes can be limited to what can be as- 
sumed to fall outside the scope of knowledge of the presumed observers of an 
edited text yet can be regarded as essential for its comprehension. 

Finally, if a document is assumed not to have any comprehensible content — 
as might be the case with some Dadaist texts, which may however be furnished 
with various commentaries on form — no explanatory notes within the meaning 
proposed here are possible. 

In general, explanatory notes initially make no reference to textual bases 
within the meaning introduced here. In the case of text documents, they only need 
to be suitably anchored. An explanatory note to the basal anchor point ‘tiger’ in the 
second line of the limerick, ‘Who smiled as he rode on a tiger’, is given in Listing 11, 
if it can be assumed for a model set of observers that readers do not have the stated 
level of zoological knowledge about big cats. 


5.3.1 Incremental accessibility 


Explanatory notes specifically to a (partial) text document are particularly useful 
where an observer has sight of it and can be expected to be in need of assistance for 
its conveyance. If the observer of a text is expected (perhaps implicitly) to access 
its content by increments (as in the case of the limerick), this has consequences for 


12 Within the literature referenced here, a proposal from situation theory regarding the so-called 
*intension" of a document can be found in Devlin and Rosenberg (1996, 168). This too would 
require further elaboration. 
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Listing 12: A mathematical structure described using MathML 


1 «math xmlns= "http: //www.w3.org/1998/Math/MathML "> 
2 <mrow><mn>1 2</mn><mo>+</mo><mn>1 44</mn><mo>+</mo><mn>20</mn> 
</mrow> 
<mrow> 
<mo>+</mo> 
<mn>3</mn><mo>&InvisibleTimes; </mo><msqrt><mn>4</mn></msqrt> 
</mrow> 
<mrow><mo>&divide ; </mo><mn>7</mn></mrow> 
<mrow> 
«mo»&plus;«/mo» 
® <mfenced> 
1 <mrow><mn>5</mn><mo>&times ;</mo><mn>11</mn></mrow> 
2 </mfenced> 
13 </mrow> 
4 
5 
6 


^ O ON DO PR W 


à 


<mrow> 
<mo>=</mo> 
<mrow><msup><mn>9</mn><mn>2</mn></msup><mo>+</mo><mn>@</mn> 
</mrow> 

17 </mrow> 

18 </math> 


the positioning of specific explanatory interventions by an editor: the explanatory 
notes may build on each other. 

An instructive example of content to be accessed by increments is provided by 
the mathematical limerick A Dozen, a Gross, and a Score attributed to Leigh Mercer 
(Brooke 1980, 36), for which a possible structuring using MathML (Carlisle et al. 
2014) is given in Listing 12 and which reads as follows: 


A dozen, a gross, and a score 

Plus three times the square root of four 
Divided by seven 
Plus five times eleven 

Is nine squared and not a bit more. 


How the text is accessed incrementally during reading becomes particularly ap- 
parent when it is transposed into a mathematically correct form. If the content of 
each newly read line is bracketed together (incrementally) with the content already 
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Listing 13: Explanatory notes to incremental access 


1 «li id-"expl 2" class-"expl" xlink:type- "extended" 
<span xlink:type- "arc" xlink:from-"ref" xlink:to- "anno"»«/span» 
<span xlink:type-"locator" xlink:label-"ref" xlink:href- "Mercer. 
MML . xhtml#xpath(//math/mrow[position() = 1])"></span> 


4 <span xlink:type="resource” xlink:label="anno” xml:lang="de”> 
176</span> 

5 </li> 

6 <li id-"expl 2" xlink: type=”extended”> 

7 <span xlink:type-"arc" xlink:from-"ref" xlink:to="anno”></span> 

8 <span xlink:type-"locator" xlink:label-"ref" xlink:href="Mercer. 
MML . xhtml#xpath(//math/mrow[position() = 1 to 2])”></span> 

9 <span xlink:type- "resource" xlink:label- "anno" xml:lang="de”> 
182</span> 

10 </li> 

11 


accessed, a mathematically correct expression results: 
[te + 144 + 20] + 3 v4] + 7| * (5x i) =9 +o] 


Thus, possible explanatory notes for a modelled limerick reader not inclined to 
perform mental arithmetic would be the incremental interim results 176, 182, 26, 
81 and (following the equals sign) 81 again. Listing 13 shows a corresponding 
implementation of this incremental access by means of explanatory notes (see 
especially the incrementally increase of the referencing position in lines 3, 8 etc.). 

Transposing the limerick in the example into a mathematically correct form 
may also be an act of interpretation. In general, it remains an open question 
whether and how an individual explanatory note as a form of annotation can be 
classed ‘below’ the level of an interpretation. 


5.3.2 Explanation versus interpretation 


We are willing to accept the content in Listing 12 on the preceding page as an 
explanation, as it gives a reader the information necessary to understand the 
limerick. For obvious questions like whether a content is “correctly” conveyed by an 
explanation, or whether different explanations can be regarded as informationally 
identical, or even whether a given content can in turn serve as an explanation to 


‘Commentary’ and ‘Explanatory Note’ in Editorial Studies and Digital Publishing — 367 


an explanatory note, an approach representing informational content is desirable. 
As an example a situationtheoretical modelling of the given limerick following 
Devlin (1990) with reference to Branigan’s narratological analysis (Branigan 1992, 
5 ff.) can look as follows: 

Let S, be a situation type defined for situations s, in which an animated be- 
ing p dominates an animated being 6 at a specific time ¢ (more formally &, F 
«controls, f, ó, i, 1%). Let S, be a situation type defined for situations s, in which a 
being p smiles and a being 6 does not smile at a specific time í (š, F [ (smiles, p, £, 1), 
(smiles, 6, £, 0) ]). Let s, be of type S, such that s, causes s, of type Sp: s, > sp. This 
approach allows the description of the narrative of the ‘Tiger’ limerick. Let s, and 
s, be situations which contain a subsituation of type S, and its consequences of 
type S,. Here, let s, be the specific situation in which the tourist dominates the 
tiger and s, the situation in which conversely the tiger dominates the tourist: 


Tourist's perspective Tiger's perspective 


eS 
01, = (controls, tourist, tiger,t,,1)) 02, = (controls, tiger, tourist, t4, 0) 
Sı F R A , ; 
: 0, = (smiles, tourist, t,, 1) 05, = (smiles, tiger, t,, 0) 
ShF See — tiger initiates state change in unrepresented (“hidden”) situation — 

l 0,5 = (controls, tourist, tiger, t,,0)) 02,3 = (controls, tiger, tourist, ty, 1) 
$5 F 


0,4 = (smiles, tourist, t5, 0) 054 = (smiles, tiger, t5, 1)) 


A “chain” of causalities s, > sp > s, with the hidden situation s; leads to a state 
change between s, and s;.? Specifically, the hidden situation switches the tourist's 
and tiger's situation with respect to the “controls”- and “smiles”-relations. 

This representation can be considered to be an appropriate explanation of the 
complete ‘Tiger’ limerick in analogy to the content of Listing 13 on the preceding 
page. However, the question arises again: how to verify whether an explanatory 
modelling is not much more than a further representation or even interpretation 
of a given content. For our example this question becomes even more apparent 
if one substitutes the written ‘Tiger’ limerick with the graphic representation in 
Figure 1 on the following page. 

Thus, demarcating explanatory notes from interpretations will at least vary and 
for the time being may also be a matter of taste. A terminological differentiation of 
these aspects may be provided (not only for texts) by a theory of explanatory notes 


13 Note that the causality chain reveals the incremental accessibility of the limerick (see Sec. 5.3.1). 
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Fig. 1: Graphical representation of the ‘Tiger’ limerick. Image: Michael Ruml 


that introduces suitable ontologies. Different ontologies may again be designed for 
different editorial projects; these need not necessarily be mutually translatable. 


6 Conclusion 


Overall, we assume a document model in which the ‘physical’ form (‘vu’) is distin- 
guished from what an observer takes from a document in terms of content (‘lu’). 
For the production of a critical edition, a distinction is thus made — under the 
umbrella term ‘annotation’ — between ‘commentaries’ justifying the determination 
of the form of the document and ‘explanatory notes’ assisting the conveyance of a 
document for an assumed readership. 

In the case of the (critical) textual commentaries and structural commentaries 
discussed here, by which a logical structure produced by an editor from textual 
bases can be justified, the editor must be a (verifiable) authority, as he/she is the 
one who determines the content portions and the logical structure. He/she must be 
able to be taken to task as an authority on all ‘vu’ issues. Therefore, all cases dealt 
with by the editor should be traceable to him/her.!'^ For explanatory notes, on the 
other hand, the editor need not be a trusted authority. In the above examples, for 
instance, Wikipedia entries could be taken for an explanation as well as factual 
authorities. 


14 A common way to trace creatorship in digital publishing environments is to use metadata 
standards such as Dublin Core described in ISO 158364. This was not done in the examples above 
for reasons of brevity. 
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Ruggero Sciuto 

A ‘Reversible Figure Annotation System’ for 
the Born-Digital Critical Edition of 
d'Holbach's Complete Works 


Abstract: While traditional paper editions normally cater to a very selected au- 
dience of like-minded scholars, digital editions can hope to reach a much wider 
readership, including both specialists and non-specialists. But how is the annota- 
tion in a digital edition to meet the needs of such a diverse audience? In this chapter 
I present an efficient and user-friendly 3-level annotation system, the ‘reversible 
figure annotation system', which I developed while working on Digital d'Holbach, 
a Mellon-funded, born-digital edition of Paul-Henri Thiry d'Holbach's complete 
writings. On this model, a single set of notes can be so structured as to cater to 
very different audiences, meaning that the edition can hope simultaneously to be 
user-friendly and cost-efficient. 


Keywords: Levels of Annotation, Digital Edition, Tool, Literature, Methodology, 
Philosophy 


1 Introduction 


Paul-Henri Thiry, Baron d'Holbach (Edesheim, 1723- Paris, 1789) was among the 
most prominent figures of the French Radical Enlightenment, a cultural movement 
that fed into the French Revolution and was highly influential in the gestation 
of our modern notions of democracy and civil rights. His writings put forward a 
thorough-going materialistic and deterministic philosophy; they are inspired by a 
profound dislike of superstition and religious belief, and are animated by a strong 
desire to enlighten the common people, free them from oppression, and set them on 
a path towards independence and happiness. Nothing on the eighteenth-century 
French scene comes quite as close to the definition of Enlightenment that Kant 
provides in his famous Was ist Aufklärung? (Kant 1784). 

Our understanding of d'Holbach, however, remains very fragmentary. While 
the Baron was a well-known salon host and stood at the centre of an extensive 
cultural network including such diverse thinkers as Adam Smith, David Hume, 
Cesare Beccaria, and Jean-Jacques Rousseau, we still lack a complete picture of 
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how he fitted within the broader context of the European Enlightenment, what 
sources he drew on as a writer, and what impact he had on the contemporary 
cultural scene. Most importantly, we know surprisingly little about d'Holbach's 
works, about how and when they were written, how they relate to one another, 
and how they evolved over time (if at all). D'Holbach, moreover, was in the habit 
of publishing his works either anonymously or pseudonymously, he worked in 
close collaboration with other French philosophers (most notably Denis Diderot 
and Jacques-André Naigeon), and often interpolated in his works chunks of texts 
pillaged from clandestine manuscripts. As a consequence, the limits of his corpus 
are indistinct. In his fundamental Bibliographie descriptive des imprimés du baron 
d'Holbach, published in 1971 but recently updated, Jeroom Vercruysse attributes to 
the Baron no fewer than 67 works, ranging from lengthy treatises on ethics, politics, 
and metaphysics to mock-dictionaries of theological jargon, from (editions of) clan- 
destine anti-religious texts to short pamphlets on opera, from French translations 
of German essays on metallurgy, chemistry, and mining to commentaries on the 
Holy Scriptures.! Many of these attributions, however, are controversial: for one, 
there appears to be some evidence to suggest that the Essai sur les préjugés, one of 
the 17 works that Vercruysse labels as "original", may in fact be the work of César 
Chesneau Dumarsais (Vercruysse 2017, 111-113). Meanwhile, Vercruysse excludes 
from his inventory 29 texts that other commentators have indicated as conceiv- 
ably by d'Holbach: this is the case, for example, with De la Raison, a short text in 
which Alain Sandrier, an authority in the field, discerns clear traces of d'Holbach's 
style (Sandrier 2005). There is, then, the issue of collaborative works: the Baron is 
known to have contributed to the Encyclopédie as well as to Guillaume Thomas 
Raynal's Histoire des deux Indes, and evidence suggests that he may have also 
read Marie-Jeanne Riccoboni's novels before publication (Nicholls 1976, 52). Yet, 
gauging exactly the extent of his contributions is difficult not to say impossible. 
Finally, it is debatable whether some of d'Holbach's translations should rather be 
labelled as *original works" (Kozul 2016). 

Part of the reason why scholars today still struggle to get a good sense of the 
extent of d'Holbach's corpus and to fully appreciate his importance within the 
Enlightenment cultural scene is that his works, unlike those of Voltaire, Diderot, 
or Montesquieu, are not yet available in any scholarly edition.? Producing a schol- 


1 My review of this volume can be read in Sciuto (2019b). 

2 Most of d'Holbach's original texts were recently republished by Jean-Pierre Jackson. Jackson's, 
however, is not a scholarly edition: there is no critical apparatus, there are no footnotes besides the 
authorial ones, no variants, no proper introductions. A critical edition of the Histoire critique de 
Jésus-Christ was published in Hunwick (1997), and what survives of d'Holbach's correspondence 
was edited in Sauter and Loos (1986). 
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arly edition of d'Holbach's writings would thus entirely revolutionise the way we 
think not just about d’Holbach but about the eighteenth century more broadly. 
A digital edition, in particular, would prove extremely useful: stylometric ana- 
lysis would help to identify authorship of certain texts and so establish the cor- 
pus of d’Holbach’s writings more precisely, while the use of sequence alignment 
would help to pin down rewriting and plagiarism, to identify the authors with 
whom d’Holbach collaborated, and to get a better sense of how the works within 
d’Holbach’s corpus relate to one another. Last but not least, a digital edition would 
make d’Holbach’s writings more widely available than at present to scholarly and 
non-scholarly readers. 

Thanks to the generosity of the Andrew W. Mellon Foundation, I am currently 
leading a project to create a born-digital critical edition of d'Holbach's complete 
works: Digital d'Holbach. For the pilot of this edition I am currently editing the 
Lettres à Eugénie, a neglected but fascinating epistolary treatise, originally pub- 
lished in 1768, that proposes women as crucial agents of social and anti-religious 
reform (Sciuto forthcoming). The text has already been encoded in TEI P5 XML 
using the Oxygen XML Editor, variants have been collated from two other editions 
published in d'Holbach's lifetime (1775; 1787), and I am currently working on the 
critical apparatus. In addition to the Lettres à Eugénie, I am also planning on deliv- 
ering an edition of d'Holbach's correspondence, a catalogue of which is already 
available on the Early Modern Letters Online platform, an Oxford-based repository 
of early modern correspondences (Sciuto 2019a). 

Digital d'Holbach is importantly part of a larger-scale project directed by Pro- 
fessor Nicholas Cronk and based at the Voltaire Foundation, a department of the 
University of Oxford. This broader project, Digital Enlightenment, aims to create 
a plan for an online platform for digital scholarly editions of eighteenth-century 
texts. Alongside Digital d'Holbach, as part of Digital Enlightenment the Mellon 
Foundation is also funding another project (Digital Voltaire), aiming to digitise the 
definitive print edition of Voltaire's complete works. 

As a researcher with experience in traditional critical editing, when I began to 
work on Digital d'Holbach, I had the opportunity to reflect on the critical edition 
workflow, on the theory of critical editing, and, more precisely, on the differences 
between print and digital scholarly editions. In particular, I was encouraged to 
think about solutions that could be applied not just to my present edition of the Let- 
tres à Eugénie, but to the whole of Digital d'Holbach and, conceivably, to any future 
digital editions to be produced within the framework of Digital Enlightenment. The 
issue of annotation, in particular, seemed to pose important challenges. How does 
digital editorial annotation differ from traditional editorial annotation? What new 
possibilities does the digital medium offer when it comes to annotating a large, 
constantly growing corpus? To what extent can editorial footnotes be automated? 
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Is automatization even desirable? Is it possible to come up with a standard anno- 
tating system that could be applied, with minimum revision, to a wide variety of 
texts? And do different audiences need different sets of annotation, or can a single 
set of notes be made to address the needs of a wide and diverse audience? 

In what follows I shall discuss the main opportunities and challenges offered 
by the digital medium. I shall then present a 2- (or 3-)level annotation system 
that could be made to fit the requirements of all texts within Digital d'Holbach, 
and be adapted with minimum revision to any future editions produced under 
the umbrella of Digital Enlightenment. Following this system, which I call the 
*Reversible Figure Annotation System', a single set of notes could simultaneously 
cater to a very diverse audience, meaning that the digital edition will be, at one 
and the same time, reader-friendly and cost-effective. 


2 Traditional editorial annotation practice: The 
case of the (Euvres completes de Voltaire 


Let us start by surveying some of the main problems posed by traditional annota- 
tion, taking as a case study the Oxford edition of Voltaire's complete works. 

The Œuvres complètes de Voltaire (Voltaire 1968-) is a major editorial under- 
taking. Started in 1968 under the direction of Theodore Besterman, the edition has 
involved about 150 researchers over the past 52 years and is now quickly approach- 
ing its completion, with the last volumes scheduled to be published by the end 
of 2020. When accomplished, the edition will comprise more than 200 volumes 
and about 2,500 texts ranging from (mock-)epic poems to short poems, from short 
stories to histories, from plays to alphabetical works and diplomatic despatches. 
In the Œuvres complètes de Voltaire, just like in any traditional paper editions 
of a large corpus, different works are assigned to different scholars (or teams of 
scholars, in the case of multi-volume texts such as the Questions sur l'Encyclopédie 
or the Essai sur les moeurs). Naturally, such an approach occasionally leads to repet- 
itive and redundant annotation. To an extent, repetitions are to be encouraged 
within a multi-volume edition: since volumes can be purchased in isolation, they 
should, where possible, be self-contained and self-explanatory. On the other hand, 
those who have access to the whole set and use the edition on a regular basis may 
find overlaps between volumes unnecessary, or even frustrating. Indeed, from the 
point of view of the director of such an edition, avoiding overlaps is to expedite the 
annotation process and the pace of the edition more generally; itis to render books 
slimmer and, possibly, even less expensive (both to produce and to acquire). Not 
only is the annotation in a paper edition susceptible to being perceived as repetitive 
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and redundant; it is also static. Cross-references within the (Euvres complétes de 
Voltaire are naturally growing more and more numerous as the edition approaches 
the end; conversely, the editors of the first books published within the series were 
compelled to reference now outdated editions, such as the nineteenth-century 
Moland edition of Voltaire’s complete works. Given the static nature of traditional 
paper editions, updating old volumes to include references to more recent ones is 
regrettably not an option. More generally, faulty and inaccurate footnotes are hard 
to correct; one could perhaps decide to re-edit and re-issue a particularly defective 
volume, but this decision is only to be taken under exceptional circumstances: 
generalising this practice would be extremely costly and would ultimately deprive 
the edition of its status as the ‘reference edition’. Finally, the fixed nature of paper 
scholarly editions also means that they can only accommodate the needs of a very 
selected audience. The editorial guidelines of the (Euvres complétes de Voltaire 
leave contributors the option of writing the critical apparatus (introduction and 
editorial notes) in either English or French; choosing one language over the other 
is of course to predetermine one's readership. As for non-speakers of either French 
or English, they are most likely to be precluded from accessing the edition at all. 
Not only the language, but the information contained in the critical apparatus may 
not fit the requirements of all readers. Understandably, paper editions aspiring to 
be indicated as the reference edition tailor the annotation to the needs of scholars, 
whom they assume to partake of the same cultural background. They accordingly 
alienate non-specialists, who are either overwhelmed with technical information 
or left wanting. 


3 The case of Digital d'Holbach 


As just observed, annotation in a traditional paper edition of a large corpus is in 
many ways lacking. First, it is not inclusive: it is linguistically inflexible, and it only 
meets the requirements of a very limited audience; second, it may be repetitive 
and redundant, especially if the edition is collaborative; last but not least, it is 
hard to correct or revise. A well-conceived digital edition should address these 
problems: it should be flexible, easy to update, more inclusive, and suitable for both 
specialists and non-specialists. Most importantly, it should do so while remaining 
clear, easily accessible, easily referenceable, and cost-effective. But how is this 
goal to be achieved? 
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3.1 Language flexibility 


A digital edition enables one to overcome some ofthe linguistic difficulties that a tra- 
ditional print edition is bound to encounter. Our current policy for Digital d'Holbach 
is to make every text, inclusive of introduction and critical apparatus, available in 
both English and French. At a later stage, translations into languages other than 
French or English will also be provided. To achieve this, we are presently exploring 
various possibilities. As far as d’Holbach’s texts themselves are concerned, one 
solution would be to digitise existing translations, be they eighteenth-century or 
more recent. This is of course a somewhat troublesome solution: for one thing, 
existing translations may not perfectly match the original French and should there- 
fore be checked prior to publication. In the case of eighteenth-century translations, 
in particular, style and language may have to be revised, so as to make the new 
translation palatable to modern readers. Second, recent translations — of which 
there is in fact no penury, especially in Southern and Eastern European countries — 
may still be subject to copyright. An alternative solution, which would take care of 
both the main text, the introduction, and the editorial notes, would be to establish 
partnership with graduate translation programmes within the U.K. or abroad. In 
2018, master's students directed by Adrienne Mason at the University of Bristol 
were involved in a project to produce an English translation of selected articles 
from Voltaire's Questions sur l'Encyclopédie (Mason 2019). Similar experiments 
could be reproduced for Digital d'Holbach as well as for any future editions within 
Digital Enlightenment. Finally, a third possibility that would be worth keeping in 
mind, especially for languages other than French and English, and arguably only 
for introductions and editorial annotations, is represented by automatic transla- 
tion software, such as DeepL.? Perhaps, these pieces of software could even be 
implemented directly to the edition, so that readers could personalise their reading 
experience, read the text in a given language, and only translate in their native 
language particularly obscure passages. 

Regardless of the approach one decides to follow, any editions that offer the 
user the possibility of reading the critical apparatus in more than one language also 
have to answer several questions: first of all, what languages (that is, what markets) 
should one prioritise? This may depend on the translations already available, 
or on the languages offered by automatic translation software and translation 
graduate programmes. While the ‘natural’ audience for Digital d'Holbach and 
Digital Enlightenment more broadly may be a Western-European one, there is a 
sense in which the success of these projects may in fact be linked to their capacity 


3 https://www.deepl.com/en/translator (27.01.2020) 
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to speak to a broader public of specialists and non-specialists in areas in which the 
works of the European Enlightenment are not normally studied or in which they 
are not easily accessible. Second, what should be done with quotations within 
notes? Should they be left in the original language or should they be translated? 
Arguably, they should be translated. However, any translated quotations of a text 
by d’Holbach should be linked to the corresponding passage in the French original, 
so as to allow scholars to quote the original French in their publications, should 
they so desire. 


3.2 Content revision 


Unlike traditional paper editions, digital editions leave room for post-publication 
revision: faulty or incomplete annotations can be revised and, as the edition grows, 
cross-references to newly published texts can be added, holding the edition to- 
gether and turning it into an organic unity. New tools are even being developed 
that allow users themselves to annotate webpages, flagging mistakes in the tran- 
scription, the translation, the annotation, etc., or otherwise engaging with the 
edition. Productive interaction with users is of course only to be encouraged, and 
implementing tools such as hypothes.is or Pundit to the Digital Enlightenment 
platform may prove highly beneficial.^ While possibly fostering discussion and 
creating a sense of community among readers, however, allowing readers directly 
to leave public comments could threaten the reliability and referenceability of the 
edition, and even become a hindrance to the enjoyability of the reading experience. 
User comments should therefore be private or only shared with a moderator, who 
would then evaluate the suggested changes and decide whether to make them or 
not. 


3.3 Gazetteers and automatic entity recognition 


By allowing room for content revision, a digital edition also solves the problem of 
repetitive annotations: as the edition grows, repetitions can be suppressed and 
cross-references added. Turning to a set of gazetteers not just for places, but also 
for people, organisations, events, and texts, would even tackle this problem at its 
root and reduce post-publication interventions to a minimum. In so far as people, 
places, and organisations are concerned, the annotation process could even be ex- 
pedited by implementing to the edition an existing named-entity recognition (NER) 


4 https://web.hypothes.is/ and https://thepund.it/ (27.01.2020) 
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Named Entity Recognition with ANNIE 


GATE is an open source infrastructure for developing and deploying software 
that process human language. GATE excels at text analysis of all shapes general architecture 


components 

to undergraduate projects. More than €5 million has been invested in GATE development efg 

and our objective is to make sure that this continues to be money well spent for all 011 

GATE's users. i 
rus 


GATE is distributed with an example Information Extraction system, known as ANNIE, 

which has formed the basis of many commercial and research systems. While ANNIE is Lor text engineering 
capable of recognising a number of different entity types this simple demo focuses on the 

annotion of & people, Q locations, and s&organizations . 


To try the demo please enter some free text to process: 

A l'égard de son nom et Ge sa quad, on ne peut former Ib dessus Que Ges conjectures; ies sevies particularités Ge 3a vie sur '€squelles on s'accoróe assez généralement, c'est 
Qu'il ava vécu dans une grande intimité avec ie marquis do ia Fare, raed Ge Crawiiay, l'abbé Terrassen. Fontenale. M. de Lasseré etc. On a même entendu dire piusiours fois à feu 
messieurs du Marsais et Faicanmet que ces lettres avaient été faites par quelqu'un de Ecole de Seaux. Tout ce qv'on peut assurer, c'est qu'l suffit de les lire pour se convaincre 
Que c'était un nomme fort instrut et qu svat mécité profoncémeet ies matres Qu’! a trat 


+ Procoss Text + 


A l'égard de son nom et de sa qualité, on ne peut former là-dessus que & des conjectures; les seules particularités de sa vie sur 
lesquelles on s' accorde assez généralement, c' est qu’ il avait vécu dans une grande intimité avec le marquis de la Fare, l' abbé de 
Chaulieu, I! abbé Terrasson, Fontenelle, & M. de Lasseré etc. On a même entendu dire plusieurs fois à feu messieurs du Marsais et 
Falconnet que ces lettres avaient été faites par quelqu'un de l'Ecole de Seaux. Tout ce qu'on peut assurer, c'est qu'il suffit de les lire 
pour se convaincre que c'était un homme fort instruit et qui avait médité profondément les matiéres qu'il a traitées. 


Please note that ANNIE was initially developed to process English language documents, mostly American news articles, and as such 
would require tuning to other languages, locales, or domains. 


Fig. 1: Using ANNIE to detect named entities in a passage from d'Holbach's Lettres à Eugénie. 
Consulted on 22 January 2020. 


system capable of automatically identifying such information. This approach, how- 
ever, appears to have considerable limits. Designed by the University of Sheffield, 
ANNIE (A Nearly-New Information Extraction System) still remains one of the most 
widely used NER systems.” As acknowledged by its creators, however, ANNIE was 
‘developed to process English language documents, mostly American news arti- 
cles’, and its reliability with texts in languages other than English is regrettably far 
from being acceptable (see Fig. 1).6 

Tuning such a system would probably be time-consuming, but arguably worth 
trying in the context of a large project such as Digital Enlightenment. An alternative 
would be to experiment with state-of-the-art French NER systems such as SEM 
(Segmenteur-Étiqueteur Markovien), which also includes a part-of-speech tagger 
and appears to score near-human performances (Dupont and Tellier, 2014). Either 
way, NER systems would arguably be incapable of identifying hidden allusions and 


5 http://services.gate.ac.uk/annie/ (27.01.2020) 
6 http://services.gate.ac.uk/annie/ (27.01.2020) 
7 See also http://www.lattice.cnrs.fr/sites/itellier/SEM.html (27.01.2020) 
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periphrases in texts, making it necessary for the editor to add some extra tagging 
manually. 

While turning to gazetteers may solve the issue of repetitive annotations, it 
also poses problems unknown to traditional scholarly editions. Most importantly, 
it seems that a single note, however simple, could hardly be made to fit different 
contexts. A person could be mentioned in two different texts, or in two distinct 
sections within the same work, for completely different reasons: Voltaire, for exam- 
ple, could be referred to as the author of La Henriade on one occasion and as the 
great grand-uncle of d’Holbach’s daughter-in-law, on another. In these two cases, 
it would seem, a single biographical note could hardly meet the readers’ needs. 
Should the entry ‘Voltaire’ in the gazetteer contain only minimal biographical 
information, the reader will arguably be left clueless in either one or both cases; on 
the other hand, an all-encompassing note would prove confusing, unless, perhaps, 
organised in very detailed subsections on the model of entries in such dictionaries 
as the Oxford English Dictionary 8 


3.3.1 2-level annotation... 


Short of writing lengthy gazetteer entries, a simple solution to the problem sketched 
above would be to turn to a 2-level annotation system. The first level of annotation 
would be represented by to-the-point notes, to be added to any sentences or phrases 
that, according to the editor(s), may require clarification or may be otherwise worth 
expanding on. Through such notes the editor could point the reader to a different 
text (or a different section within the same text) in which the annotated phrase or 
sentence reappears, or in which the same issues are discussed; they could provide 
their own personal interpretation of a particularly obscure passage; comment on 
the language or the form; or explain why a specific person, event, place, or the 
like is mentioned within that specific context. In addition, and this would be our 
second level of annotation, there would then be gazetteer entries which could 
be accessed through hyperlinks located either within the text or the to-the-point 
notes. Going back to our previous example, a hypothetical sentence in a text T by 
d'Holbach containing an allusion to Voltaire's La Henriade could be annotated 
with a to-the-point note such as *D'Holbach is here alluding to La Henriade, an 
epic poem by Voltaire first published in 1728"; embedded in that note would then 
be a hyperlink to Voltaire's entry in the gazetteer, in which any users who wanted 
to know more about Voltaire could find minimal biographical information as well 


8 https://www.oed.com/ (27.01.2020) 
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as links to more comprehensive online resources, such as Wikipedia, data.bnf.fr, or 
various biographical dictionaries (for non-French people examples of these could 
be the Oxford Dictionary of National Biographies, Allgemeine Deutsche Biographie, 
or the Dizionario Biografico degli Italiani). 


3.3.2 How to structure to-the-point notes? 


As just remarked, gazetteer entries should only contain minimal biographical infor- 
mation, so as to be used not just within the current edition of d'Holbach's complete 
writings, but also in future projects falling under the umbrella of Digital Enlighten- 
ment. But what form should to-the-point notes take? With TEASys, the Tübingen 
Explanatory Annotations System, Angelika Zirker and Matthias Bauer made an in- 
teresting attempt at rethinking annotation for the digital medium.? Annotations in 
TEASys are parcelled into information units that are then sorted according to their 
nature (e.g. linguistical, formal, intertextual, intratextual, contextual, interpretive, 
etc.) and level (basic through advanced) (see Fig. 2). 

The result is neat, and the tool appears perfectly to fulfil its heuristic purpose: 
TEASys (*a peer project by students for students") has in fact been developed with 


Fig. 2: Screenshot from the TEASys website displaying a note to John Donne's ‘Break of Day’. 
Consulted on 22 January 2020. 


9 http://www.annotation.es.uni-tuebingen.de/ (27.01.2020) 
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German undergraduates reading English in mind, and is based on the idea that, 
by annotating a text, students can gain a better understanding of its structure and 
complexity, while at the same time acquiring important language skills. While 
in many ways commendable, TEASys would arguably not be suitable for a large- 
scale project like Digital d'Holbach or Digital Enlightenment: even if opportunely 
instructed, users could find the fragmentation of notes confusing and struggle to 
locate the piece of information they require. As previously mentioned, moreover, 
Digital d'Holbach is a collaborative project, and even where precise guidelines were 
to be provided, different editors may very well disagree as to the meaning of the 
various categories, leading to inconsistent annotation and further confusion. In a 
sense, it would therefore be best to replicate in the digital medium the structure 
of traditional annotations. However, some small changes could be introduced to 
make notes more easily readable. For instance, bibliographical references could 
be excluded from the body of the note, and confined to an allocated section. In 
some cases, they could even be replaced with links to Google Books, gallica.bnf.fr, 
HathiTrust, or the like. Moreover, it would be worth introducing a policy of consis- 
tently beginning a note with a concise, informative clause - an abstract line, so to 
speak -, which would then be expanded and nuanced as appropriate in the rest of 
the note. 


3.3.3 Specialists vs non-specialists 


Digital d'Holbach and Digital Enlightenment more broadly aim to address as vast 
and as diverse an audience as possible. Depending on their upbringing, nationality, 
religion, interests, etc. readers may of course have different responses to a given 
set of notes: they may find that the editor has taken too much knowledge for 
granted, or else that they have provided unnecessary, even trivial information. 
A hypothetical student from Japan who happened to have been raised in a non- 
religious environment may not know what ‘baptism’ means, while a Catholic priest 
from Italy would arguably be amused (or worried) at the sight of an annotation 
on such a word. Creating different interfaces and giving the reader the option of 
choosing what text they want to read (diplomatic transcription vs modernised 
text; French original vs translation) and what set of notes they want access to 
may perhaps offer a solution to this problem. For example, one could imagine an 
interface specifically tailored to the needs of students, and a second one designed 
for specialists; or even different sets of notes for scholars in various domains 
or students of different ages and years. Even if we forget for a moment about 
the non-trivial amount of work that would go into writing specific annotations 
for each cluster of users, creating such interfaces would be to make groundless 
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assumptions about our readers: even within a given set of users, such as students 
or academics, people may still differ in interests, cultural backgrounds, etc.!? It 
is generally assumed that students require less annotation than specialists do 
and that even a limited degree of annotation may prove distracting for them. Yet, 
it seems that preventing students from accessing full notes is to preclude them 
from accessing something that may conceivably fire their interest. Making it a 
policy of always starting to-the-point notes with an 'abstract line' as indicated 
in the previous paragraph would arguably provide a solution to this problem. 
Structured thus, notes would be made to cater to different readers: specialists as 
well as non-specialists could grasp the scope of the note at first glance and decide 
whether to continue reading or move forward. The idea of only including minimal 
information in the gazetteer entries while providing links to other, more detailed 
online resources goes in very much the same direction. Going back to to-the-point 
notes, one could find it useful to distinguish between two different types of notes, 
namely explicative and interpretative, and render them, for example, in different 
colours: a specialist who would read a sentence, find it perfectly clear, and see 
an explanatory note at its end would thus keep reading without much hesitation; 
should the note be marked as ‘interpretative’, they could instead decide whether to 
pause and read it or not. Vice versa, students may want to read explanatory notes 
and disregard interpretative ones. 


3.3.4 ... or 3-level annotation 


In addition to gazetteer entries and to-the-point notes, for Digital d'Holbach and 
Digital Enlightenment we also designed a third level of annotation, namely short 
essays on key concepts. Although conceptually close to gazetteers entries, these 
essays will be considerably different in structure and be patterned on articles in 
the Stanford Encyclopedia of Philosophy (see Fig. 3 on the facing page). 

They will accordingly consist of a) a short introductory paragraph with the 
same function as the abstract line in to-the-point notes, b) an index, and c) various 
paragraphs providing more detailed information about a specific key word. As the 
edition grows and new texts are added to the Digital Enlightenment platform, new 


10 See Zirker and Bauer (2017, 213): ‘The reconstruction of [the] reader is beset with difficulties, 
just as it is next to impossible to define what the reader of the annotations is supposed not to 
know. There are rarely any specific target audiences for a set of annotations, and even if there is a 
defined target audience (e.g. students), it tends to be so heterogeneous in itself that it is next to 
impossible to arrive at a general assessment of its common knowledge’. 
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G Stanford Encyclopedia of Philosophy 


& Browse @About Æ Support SEP p a 
Entry Contents = x " 
ad Paul-Henri Thiry (Baron) d'Holbach 
Academic Tools First published Fri Sep 6, 2002; substantive revision Thu Jan 16, 2020 
Friends POF Preview e Paul-Henri Thiry, Baron d'Holbach was a philosopher, translator, and prominent social figure of the 
"m > French Enlightenment. In his philosophical writings Holbach developed a deterministic and 
Author and Citation info — € materialistic metaphysics, which grounded his polemics against organized religion as well as his 


utilitarian ethical and political theory. As a translator, Holbach made significant contributions to the 
European Enlightenment in science and religion. He translated German works on chemistry and 
geology into French, summarizing many of the German advances in these arcas in his entries in 
Diderot's Encyclopedia. Holbach also translated important English works oa religion and political 
philosophy into French. Holbach remains best known, however, for his role in Parisian society. The 
close circle of intellectuals that Holbach hosted and, in various ways, sponsored produced the 
Encyclopedia and a number of revisionary religious, ethical, and political works that contributed to 
the ideological basis for the French Revolution. Despite the radical views of many members of his 
coteric, however, Holbach's broader visiting guest list included many of the most prominent 
intellectual and political figures in Europe. His salon, then, was at once a shelter for radical thought 
and a hub of mainstream culture. 
* 1. Biography 
+ 2. Metaphysics: Matter and Motion, Cause and Effect 
+ 3. Ethics: Virtue for the Sake of Happiness 
+ 4, Political Theory: Ethocracy 
+ Bibliography 
+ Primary Literature: Selected Works of Holbach 
* Other Primary Sources 
+ Secondary Literature 
* Academic Tools 
+ Other Internet Resources 
+ Related Entries 


Back to Top 


Fig. 3: Screenshot of the ‘Paul-Henri Thiry (Baron) d’Holbach’ entry in the Stanford Encyclopedia 
of Philosophy (https://plato.stanford.edu/entries/holbach/). Consulted on 22 January 2020. 


key words will be identified, and more paragraphs could be added to existing short 
essays. 

But how are these short essays to be linked to the text? In an almost exact 
replica of what we have already observed concerning gazetteer entries, hyperlinks 
to short essays could be provided either in the body of the text, should the relevant 
key word be explicitly mentioned in it, in the to-the-point notes, or even in the 
gazetteer entries. Shoulda given paragraph be concerned with a key concept yet the 
key word itself not be explicitly mentioned, one could then turn to ‘manchettes’ or 
side notes. In addition, one could tag all key words relevant to a specific paragraph, 
so to allow users to query the edition and identify any subsections within a single 
text or an entire corpus of works that deal with a given topic." 


11 To achieve this, one would simply need to create a new attribute topic to the existing TEI 
element <p> and attach it to anew namespace. See https://tei-c.org/release/doc/tei-p5-doc/en/ 
html/USE.html (27.01.2020) 
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3.4 Rendition 


What has just been said concerning side notes brings us to the final and crucial 
question of rendition. While traditional paper editions may not be flexible or easy 
to update, while they may only cater to a very specific audience and be at the 
same time monolithic and disorganic, they also have a considerable advantage 
over most digital editions: page layout. In a carefully designed edition such as 
the (Euvres completes de Voltaire discussed above, different font sizes are used to 
distinguish between main texts, authorial notes (if any), and critical apparatus. 
Different sections (text, authorial notes, variants, and editorial notes) are also 
spaced out so as to make it easier for the reader to decide what to read and what 
to disregard. In most paper editions the structure of the page also puts useful 
constraints on the length of notes (although commentaries provide a noticeable 
exception to this general rule) (Zirker and Bauer 2017, 147). But is there a way of 
replicating the neatness of traditional annotation in a digital edition? 

With very few exceptions, digital editions normally turn to pop-up notes that 
are displayed, for example, by clicking on the note-call or hovering with the pointer 
on a given word or sentence. This is the case even with otherwise excellent digital 
resources such as the Jane Austen’s Fiction Manuscripts Digital Edition or the Codice 
Pelavicino Edizione Digitale." However common, this way of displaying notes is 
not ideal: pop-up notes cover part of the text, hinder the reading process, and often 
disappear at the slightest movement of the cursor. A better alternative is offered 
by the digital edition of Vincent van Gogh's correspondence or by TEASys itself, 
where notes are displayed in a separate column on clicking on the note-call (see 
Fig. 2 on page 382). The note-call should importantly be a number rather than a 
symbol, so as to make notes referenceable. Notes must also be searchable, and it 
is advisable that the reader be also given the possibility of flipping through them. 
This could be achieved, for example, by giving the reader the option of displaying 
all notes in a separate column or window, as is the case with the abovementioned 
digital edition of van Gogh's correspondence. In the case of d'Holbach, just like in 
that of Voltaire, moreover, it is vital to distinguish between editorial and authorial 
notes. Authorial notes, for instance, could be reproduced in square brackets in the 
body of the text right next to the note-call in the original edition. 


12 See https://janeausten.ac.uk/index.html and http://pelavicino.labcd.unipi.it/ (27.01.2020) 
13 See http://vangoghletters.org/vg/ (27.01.2020) 
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4 Conclusion 


While traditional paper editions are static by nature, annotation in digital editions 
is flexible, both in language and content. Most importantly, unlike paper editions, 
which are normally addressed to a very selected readership, digital editions have 
the potential to cater to a very diverse audience. In this paper I have outlined 
what I think could be a very efficient and user-friendly way of structuring and 
displaying notes in a digital edition. Just like in a reversible figure - an image, that 
is, that can be interpreted in different ways by different observers or even by a 
single observer (see Fig. 4) -, in the annotation system presented in this article a 
single set of notes can be made to meet the requirements of different audiences. 
The key to success, I argue, is an intuitive structure and display that allows readers 
to distinguish between ‘useful’ and ‘futile’ information. Short gazetteer entries 
with links to more detailed online resources, to-the-point notes beginning with a 
short and informative abstract line, easily browsable short essays on key words 
beginning again with a carefully designed paragraph, and two different renditions 
for explanatory and interpretative notes: all these elements put the reader in control 
and let them chose the right amount and the kind of information that they want to 
get. 


Fig. 4: William Ely Hill, My Wife and My 
Mother-in-Law (1915). Source: Wikipedia 
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